Dentro la scatola nera
Il recente entusiasmo attorno al machine learning è stato accompagnato da alcuni richiami alla prudenza. Infatti, gli algoritmi di apprendimento automatico sono spesso descritti come "scatole nere", nel senso che il meccanismo con cui il loro output è ottenuto dall'input non è trasparente. Inoltre, tale output viene tipicamente restituito senza alcuna quantificazione dell'incertezza. Al contrario, trasparenza e quantificazione dell'incertezza sono tra i punti di forza della statistica. D'altra parte, il machine learning ha mostrato alcune prestazioni notevoli, specialmente con dati voluminosi, complessi e streaming (cioè dati che arrivano sequenzialmente e velocemente), che non possono essere trascurate.
Un'altra differenza tra il machine learning e la statistica è che il machine learning si concentra sulla previsione, mentre la statistica è tipicamente più interessata all'inferenza sui parametri del modello probabilistico assunto. In realtà, questo è un quadro incompleto della statistica. Infatti, il focus sulla previsione è condiviso dalla statistica bayesiana. Questo approccio statistico, che prende il nome da Thomas Bayes e dal suo celebre teorema, combina i dati con le informazioni disponibili a priori, al fine di fornire non solo un'inferenza a posteriori sui parametri del modello, ma anche una previsione efficace, entrambe accompagnate da una rigorosa quantificazione dell'incertezza.
In un recente articolo, Sandra Fortini e Sonia Petrone, professoresse del Dipartimento di Scienze delle Decisioni della Bocconi, hanno utilizzato la statistica bayesiana per indagare il funzionamento dell'algoritmo di Newton. Quest'ultimo è una procedura ricorsiva per classificare dati streaming in categorie, ad esempio suddividendoli rispetto ai pattern o alle fonti di segnale, senza alcun riscontro sulla correttezza delle classiï¬cazioni precedenti (in questi casi si parla di classificazione unsupervised, ovvero non supervisionata). Il successo di questo algoritmo è dovuto alla possibilità di applicarlo ricorsivamente, "riutilizzando" i calcoli precedenti ad ogni nuova osservazione, un aspetto fondamentale in caso di dati streaming. Prima del lavoro di Fortini e Petrone, non era chiaro se il pur efficiente algoritmo di Newton fosse l'approssimazione di una procedura bayesiana rigorosa ma più onerosa dal punto di vista computazionale.
"Come spesso accade", spiega Fortini, "questo algoritmo non esplicita un modello probabilistico. Tuttavia, poiché si basa su una regola predittiva per l'osservazione successiva, la statistica bayesiana permette di svelare il modello che è stato implicitamente assunto. Questo utilizzo dell'approccio predittivo bayesiano non è limitato all'algoritmo di Newton. Al contrario, può essere esteso a qualsiasi algoritmo che sia basato su una regola predittiva".
"Questa linea di ricerca", aggiunge Petrone, "dimostra che l'approccio predittivo bayesiano è molto più di una scelta filosofica. Può concretamente aiutare a far luce su algoritmi il cui funzionamento rimarrebbe altrimenti oscuro. E questa non è solo una curiosità scientifica, perché quando le previsioni servono a supportare decisioni su questioni di vita o di morte (come, per esempio, nella recente pandemia) non possiamo fidarci ciecamente degli algoritmi. Combinando la velocità degli algoritmi con la rigorosa quantificazione dell'incertezza della statistica bayesiana si può trarre il meglio da questi due mondi".
Fortini, S. and Petrone, S. (2020). "Quasi-Bayes properties of a procedure for sequential learning in mixture models." JRSS, Series B, 82, 1087–1114. DOI: https://doi.org/10.1111/rssb.12385.
Breiman, L. (2001). "Statistical modeling: The two cultures (with comments and a rejoinder by the author)." Statistical Science, 16(3), 199-231, DOI: https://doi.org/10.1214/ss/1009213726.