Igor Pruenster tiene la barra dritta nel mare di machine learning e data science
"È un bellissimo momento per fare statistica", afferma Igor Pruenster, docente presso il Dipartimento di Scienze delle Decisioni e direttore del Bocconi Institute for Data Science and Analytics (BIDSA). "Il nuovo campo di studio della data science, alla cui base sta la statistica, sta riscuotendo grande successo negli ambiti più svariati". Non stupisce perciò che una rivista prestigiosa come Operations Research abbia aperto una nuova area dedicata a "Machine Learning and Data Science", assegnando a Pruenster il ruolo di Associate Editor che già copre per varie altre riviste, tra cui gli Annals of Statistics, la più importante rivista di statistica matematica. "In questa fase di grande popolarità della data science, in cui sono richieste risposte rapide, anche a scapito dell'accuratezza, è fondamentale preservare un approccio rigoroso e intellettualmente onesto alla ricerca. È lo spirito di BIDSA e del Master of Science in Data Science and Business Analytics che sarà inaugurato in autunno".
Modelli complessi per un mondo complesso
Il problema della complessità è ubiquo nella scienza moderna. I fenomeni oggetto di studio sono sempre più complessi: da un lato richiedono modelli più elaborati per descriverli, dall'altro i relativi dati disponibili presentano strutture più ricche e raffinate. Questa duplice sfida spesso impone di passare da un approccio parametrico ad uno non parametrico, che permette di stimare con la flessibilità necessaria oggetti funzionali quali, ad esempio, la distribuzione delle parole e degli argomenti in collezioni di testi o curve di rischio in ambito medico. A volte, però, si tratta di "scatole nere", di cui si ignora il reale funzionamento. Il gap fra quello che è possibile fare attraverso tecniche computazionali e la conoscenza rigorosa delle loro proprietà si sta sempre più allargando. Il lavoro di Igor Pruenster mira a colmare questo gap, cercando di scoprire le strutture profonde del funzionamento dei modelli. "E spesso si scopre che in realtà non funzionano affatto. Non si può prescindere da una comprensione profonda e rigorosa delle proprietà teoriche dei modelli e dei relativi algoritmi. Ovviamente errori nei campi di applicazione tipici della tech industry, quali ad esempio la visualizzazione di un annuncio pubblicitario sbagliato, hanno conseguenze ben diverse da errori in ambito medico".
Popolazioni e inferenza
I primi lavori di Igor Pruenster si sono concentrati sulla necessità di effettuare previsioni rigorose, ma sufficientemente flessibili da descrivere le caratteristiche di una determinata popolazione. È il caso ad esempio di una libreria di Dna di cui bisogna stimare la diversità genetica mediante la stima del tasso di crescita del numero di geni che si andranno a scoprire in campioni aggiuntivi. "La modellistica classica implicitamente imponeva che la scoperta di nuovi geni seguisse una forma logaritmica", spiega Pruenster, che ha affrontato l'argomento anche nell'ambito del progetto di ricerca New Directions in Bayesian Nonparametrics premiato con un ERC Starting Grant. "L'arricchimento della modellistica ci ha permesso di descrivere essenzialmente ogni possibile tasso di crescita rendendo la metodologia utile sia in ambito genomico, sia in altri campi". Nei lavori successivi, Pruenster si è dedicato al rapporto fra diverse popolazioni che, pur essendo distinte, producono dati simili – nel nostro esempio, librerie di Dna di parti diverse dello stesso organismo. "Modelliamo in maniera flessibile il modo in cui le popolazioni dipendono l'una dall'altra e facendolo aumentiamo la potenza di stime e previsioni".
Il futuro è un'ipotesi
C'è ancora molto da fare, ad esempio sul fronte della capacità di far funzionare gli algoritmi relativi a modelli complessi su data set enormi. "L'industria chiede soluzioni immediatamente applicabili. La ricerca accademica deve avere un orizzonte di medio-lungo termine e sviluppare i migliori modelli possibili, anche se magari potranno essere implementati solo fra dieci anni. Del resto, la potenza computazionale sta crescendo a dismisura: gli algoritmi che oggi danno risultati in una settimana, in futuro svolgeranno lo stesso compito in pochi secondi". Un altro tema fondamentale per il futuro è la replicabilità dei risultati di ricerca. Si sta diffondendo solo recentemente l'idea che ai lavori con una significativa componente computazionale debba essere allegato il codice informatico, come per i teoremi vengono richieste le dimostrazioni. "È un momento entusiasmante per fare ricerca in questo campo. Ed è proprio in frangenti come questi che bisogna tenere la barra dritta".
Per saperne di più
Antonio Lijoi, Ramsés H. Mena, Igor Pruenster, Bayesian nonparametric estimation of the probability of discovering a new species, in Biometrika, 94, 769-786, 2007.
Antonio Lijoi, Bernardo Nipoti, Igor Pruenster, Bayesian inference with dependent normalized completely random measures, in Bernoulli, 20, 1260-1291, 2014.
Antonio Canale, Antonio Lijoi, Bernardo Nipoti, Igor Pruenster, On the Pitman-Yor process with spike and slab base measure, in Biometrika, 104, 681-697, 2017.
Federico Camerlenghi, Antonio Lijoi, Peter Orbanz, Igor Pruenster, Distribution theory for hierarchical processes, in The Annals of Statistics, forthcoming 2018.