Contare gli invisibili
Anche nell'era dei big data, l'accesso alle informazioni può essere limitato da molti fattori, che vanno da quelli politici a quelli pratici. Ciò vale anche per i registri delle vittime negli scenari di guerra, che spesso consistono in liste multiple, incomplete e potenzialmente imprecise (raccolte, per esempio, da diverse Ong) invece che in un unico ed esaustivo registro ufficiale. Giacomo Zanella, assistant professor di Statistica presso il Dipartimento di Scienze delle Decisioni della Bocconi, ha sviluppato metodologie avanzate che possono essere utilizzate per stimare il numero totale di vittime a partire da tali banche dati incomplete.
Nel corso dei decenni, gli statistici hanno sviluppato un'ampia gamma di metodi per questo problema, che è noto come stima della dimensione della popolazione. Ad esempio, i metodi di cattura-ricattura stimano la dimensione della popolazione esaminando l'intersezione tra elenchi provenienti da fonti diverse. Intuitivamente, se due elenchi raccolti in modo indipendente hanno pochi record in comune, allora ci aspettiamo una forte sotto-rappresentazione. In questo caso, la dimensione totale della popolazione sarà probabilmente molto più grande del numero di individui censiti.
Per applicare questo approccio alla stima delle vittime di guerra, occorre prima di tutto identificare i record che si riferiscono allo stesso individuo nei diversi database, una procedura nota come record linkage o entity resolution. Quando i dati sono potenzialmente imprecisi e non sono disponibili identificatori unici, questa operazione è tutt'altro che banale e richiede un approccio statistico. In particolare, i metodi bayesiani sono utili per quantificare l'incertezza sulla corrispondenza dei record e quindi sulle successive stime, in questo caso sul numero stimato di vittime.
Insieme ad una rete internazionale di coautori, Zanella ha contribuito allo sviluppo di metodi bayesiani per problemi di entity resolution, sia dal punto di vista teorico che da quello computazionale.
"Il processo di entity resolution", spiega Zanella, "può essere visto come un problema di clustering, ovvero di suddivisione di un dataset in gruppi, detti cluster, composti da unità con caratteristiche simili. In questo caso i cluster sono costituiti da record associati alla stessa persona e il numero di record in ogni cluster tende ad essere estremamente ridotto rispetto alle dimensioni del dataset. Per esempio, si potrebbero avere centinaia di migliaia di record suddivisi in cluster contenenti al massimo cinque record ciascuno. Un fenomeno di questo tipo, detto microclustering, non è ben colto dai modelli bayesiani tradizionali, che presuppongono che ogni cluster contenga una frazione non trascurabile dell'intera popolazione".
Questo ha motivato Zanella a proporre nuovi modelli per il microclustering, a studiarne le proprietà teoriche e ad applicarli a problemi di entity resolution. Inoltre, poiché le tecniche computazionali tradizionali non offrivano buone performance su questa nuova classe di modelli, Zanella ha sviluppato e analizzato nuovi metodi MCMC (Markov Chain Monte Carlo), che si sono dimostrati di gran lunga più efficienti nell'esplorare lo spazio discreto delle configurazioni di record linkage. Questo apre la possibilità di eseguire il microclustering bayesiano su big data, non solo in problemi di entity resolution, ma anche nel sequenziamento del DNA, nella linguistica computazionale, nell'analisi di reti sparse e in diverse altre applicazioni.
"Questo progetto ben rappresenta la mia attività di ricerca", dice Zanella, "che è orientata a una rigorosa comprensione matematica dei moderni metodi statistici e computazionali motivati da applicazioni nel mondo reale, al fine di sviluppare metodologie più efficaci e affidabili".
Per saperne di più
B. Betancourt, G. Zanella and R. Steorts. Random partition models for microclustering tasks, under revision.
G. Zanella, Informed proposals for local MCMC in discrete spaces, in Journal of the American Statistical Association (T&M), in press.
G. Zanella, B. Betancourt, H. Wallack, J. Miller, A. Zaidi and R. Steorts, Flexible models for microclustering with application to entity resolution, in Advances in Neural Information Processing Systems 29 (NIPS 2016).