Contatti
Opinioni

Quantificare l'incertezza

, di Giacomo Zanella - assistant professor presso il Dipartimento di scienze delle decisioni
E una delle sfide aperte che si puo' affrontare integrando piu' in profondita' pensiero probabilistico e IA

Un classico successo dell'apprendimento automatico (ML) e dell'intelligenza artificiale (IA) nell'ultimo decennio è la straordinaria accuratezza nei compiti di previsione e classificazione - come il riconoscimento di oggetti nelle immagini - ottenuta con modelli ML di grandi dimensioni. Allo stesso tempo, molti recenti progressi e problemi aperti nell'IA richiedono una più profonda integrazione del ML con il pensiero probabilistico, compresa la necessità di costruire rappresentazioni probabilistiche dei dati. Un esempio ovvio è la quantificazione dell'incertezza che circonda una previsione o una classificazione. Si pensi, ad esempio, alla possibilità di fornire a un medico una diagnosi di una malattia basata sull'intelligenza artificiale rispetto alla valutazione della nostra fiducia in tale diagnosi.

Un esempio popolare di modellazione probabilistica nell'IA è offerto dai cosiddetti modelli generativi, che hanno visto grandi progressi negli ultimi anni. Tra gli esempi vi sono i modelli per la generazione di immagini (compresi i controversi cosiddetti deepfakes), di testi (dalla creazione automatica di didascalie per le immagini ai chatbot avanzati) o persino di arte (come i software per la generazione di musica). L'idea fondamentale è quella di costruire modelli probabilistici in grado di generare dati che "assomigliano" a dati reali, ad esempio foto di persone mai esistite ma che potrebbero essere esistite. Si tratta di modelli diversi da quelli "discriminativi" che imparano, ad esempio, a prevedere quale oggetto viene mostrato in una foto (nonostante la scarsa illuminazione, la postura insolita, ecc.) ma non sono in grado di generare nuove immagini in cui viene mostrato tale oggetto. Più in generale, la modellazione probabilistica non riguarda solo la generazione di nuovi dati "falsi". Si tratta di apprendere meccanismi generativi, cioè di costruire modelli che quantificano e potenzialmente riproducono la casualità insita nei dati. Tali rappresentazioni probabilistiche possono aiutare a svolgere vari compiti legati al ML, come l'identificazione di osservazioni "improbabili" che potrebbero necessitare di ulteriori informazioni prima di poter prendere una decisione affidabile; la quantificazione dell'incertezza su una previsione o una decisione prodotta da un modello ML; l'individuazione di outlier e comportamenti sospetti; lo sfruttamento del modello generativo dedotto per fare inferenze su strutture latenti nei dati.

In generale, il pensiero probabilistico e generativo è ampiamente utilizzato in tutte le scienze. Sebbene diversi negli obiettivi e nelle interpretazioni, concetti fondamentali come le variabili latenti, gli effetti casuali, i modelli a fattori o i modelli a miscele, diffusi nelle scienze sociali, sono in realtà esempi di modelli generativi. Un esempio classico è dato dai modelli di argomento, che consentono l'estrazione automatica di argomenti significativi da grandi corpus di documenti di testo o, in altre parole, permettono di capire e caratterizzare ciò di cui i documenti parlano. Queste e molte altre tecniche di elaborazione del linguaggio naturale hanno permesso a ricercatori e aziende di trattare il "testo come dati" da utilizzare come input per compiti a valle, avendo così un grande impatto in molte aree applicative, tra cui la ricerca in Scienze Politiche ed Economia. Un altro esempio comune è la raccomandazione probabilistica, in cui si ipotizza che "prodotti" e "clienti" possiedano caratteristiche latenti non osservate che determinano la probabilità che un determinato cliente dia una certa valutazione a un determinato prodotto. L'apprendimento statistico viene quindi utilizzato per dedurre le caratteristiche rilevanti dai dati osservati e costruire così una rappresentazione concisa e al tempo stesso informativa dei tipi di prodotti e clienti.
Molti modelli generativi, compresi gli esempi precedenti, costruiscono una rappresentazione probabilistica dei dati x specificando un modello di probabilità congiunto per x e z, p(x,z), dove z sono variabili latenti volte a modellare fonti di variazione fondamentali ma non osservate. Negli esempi precedenti, z sarebbe l'argomento e x le parole scelte in base all'argomento; oppure z sarebbe la caratteristica del cliente e del prodotto e x le valutazioni osservate. L'apprendimento da tali modelli, sia per produrre nuovi dati sia per fare inferenza sulle strutture sottostanti, richiede il calcolo della distribuzione marginale dei dati, p(x), o della cosiddetta distribuzione posteriore delle variabili latenti dati i dati osservati, p(z | x). Questi compiti comportano grandi sfide computazionali, soprattutto nelle applicazioni moderne con migliaia o milioni di variabili latenti nel modello.

Queste sfide vengono solitamente affrontate con una delle due classi principali di algoritmi: quelli variazionali, che costruiscono un'approssimazione deterministica e "più facile da gestire" di p(z | x); e quelli Monte Carlo, che costruiscono una rappresentazione stocastica di p(z | x) mediante campioni casuali opportunamente estratti. La comprensione più approfondita del funzionamento computazionale e statistico di tali algoritmi nel contesto di modelli probabilistici su larga scala, nonché lo sviluppo di algoritmi migliori e più efficienti, sono l'obiettivo del mio recente ERC Starting Grant per il progetto Provable Scalability for high-dimensional Bayesian Learning.
In prospettiva, una più profonda integrazione tra il pensiero probabilistico e l'IA può contribuire ad affrontare le principali sfide in questi campi, dalla quantificazione dell'incertezza all'interpretabilità. Un aspetto affascinante dell'attuale ricerca sulla modellazione probabilistica e generativa è che quadri e persino algoritmi simili sono oggi sempre più utilizzati in campi scientifici molto diversi. Ciò conferisce un'importanza e una responsabilità fondamentali alla ricerca metodologica in statistica e ML, che può aiutare a riconoscere le strutture comuni e a facilitare il flusso di idee tra i vari campi.