La scienza dei dati su larghissima scala: un'arte trasformata in scienza
Ai bei vecchi tempi - se mai sono esistiti - avevamo modelli che miravano a spiegare i fenomeni attraverso un numero limitato di parametri e che potevamo testare utilizzando una piccola quantità di dati. Quando raccoglievamo nuovi dati, dovevamo solo inserirli nel modello e calcolare il risultato.
Oggi, i modelli statistici e di machine learning possono avere milioni di parametri e possiamo raccogliere miliardi di dati eterogenei provenienti da fonti diverse, e nessun computer al mondo è in grado di elaborare tali quantità in un arco di tempo ragionevole. Ecco a cosa servono gli algoritmi computazionali: sono processi che arrivano più o meno agli stessi risultati del modello originale, ma in modo più semplice e veloce.
Ci sono però alcuni problemi. Non sempre riusciamo a capire esattamente perché un algoritmo computazionale funziona e, se funziona, non possiamo essere certi che funzionerà altrettanto bene con insiemi di dati diversi o notevolmente più grandi.
"Questa mancanza di comprensione si traduce nell'uso comune di algoritmi inefficienti e in gran parte non ottimali, e rende la progettazione di algoritmi efficienti per modelli di uso pratico una specie di arte," dice Giacomo Zanella, Assistant Professor presso il Dipartimento di Scienze delle Decisioni della Bocconi.
Zanella ha ottenuto un ERC Starting Grant di €1,5mln dallo European Research Council (ERC) per comprendere meglio gli algoritmi computazionali per modelli probabilistici su larga scala, rendendo così la loro progettazione non più un'arte, ma una scienza. Il progetto (PrSc-HDBayLe - Provable scalability for high-dimensional Bayesian Learning) mira a individuare, con tecniche matematiche rigorose e innovative, gli algoritmi più promettenti e a produrre linee guida per migliorarli e svilupparne di nuovi.
Gli algoritmi studiati da Zanella hanno tre proprietà: sono di uso comune ("Voglio sviluppare conoscenze rilevanti per i professionisti," dice), sono dimostrabilmente scalabili e affidabili. In un algoritmo scalabile, il tempo necessario al computer per produrre un risultato aumenta solo in modo lineare, cioè nella stessa proporzione di dati o parametri: se i dati sono il doppio, ci vorrà due volte il tempo. Tali algoritmi promettono di rimanere gestibili anche se il numero di parametri e di dati continua ad aumentare.
L'affidabilità può essere garantita solo da una corretta comprensione del funzionamento di un algoritmo. Ciò comporta una quantificazione rigorosa dell'incertezza associata al risultato dell'analisi, come avviene comunemente nei modelli statistici bayesiani, che saranno al centro del progetto.
"Il mio campo è la Statistica Computazionale," dice Zanella, "un campo intrinsecamente interdisciplinare all'incrocio tra Statistica, Machine Learning e Matematica Applicata. Il mio approccio di ricerca si colloca all'intersezione tra metodologia (progettazione di algoritmi scalabili e affidabili) e teoria (dimostrazione della loro scalabilità)."
I risultati del progetto aiuteranno ad affrontare le sfide statistiche e computazionali dovute all'alta dimensionalità (il numero crescente di caratteristiche registrate per ogni individuo); alla potenziale presenza di interazioni (le combinazioni virtualmente infinite di caratteristiche che potrebbero influenzare l'esito effettivo); ai dati mancanti e ai bias di campionamento; e alla necessità di combinare dati provenienti da fonti diverse (ad esempio, database differenti con vari gradi di affidabilità; dati a livello individuale o aggregato; ecc.)
Queste sfide si presentano abitualmente nei problemi di scienza dei dati della vita reale, con esempi che vanno dalla stima del numero di vittime di guerra attraverso rapporti incompleti alla previsione dei risultati elettorali combinando diverse fonti di dati grandi, ampi e "sporchi".
Gli ERC Starting Grants possono essere assegnati a ricercatori di talento all'inizio della carriera, di qualsiasi nazionalità e con 2-7 anni di esperienza dal completamento del PhD, un track record scientifico molto promettente e un'eccellente proposta di ricerca. Per i ricercatori nelle fasi successive della loro carriera, l'ERC fornisce Consolidator Grants e Advanced Grants.