Big data come oro: un professore della Bocconi contribuisce alla realizzazione di simulatori piu' veloci
I continui progressi nelle capacità di calcolo hanno reso possibile la simulazione di sistemi complessi anche su un computer portatile. Tali simulazioni sono estremamente utili per prendere decisioni in scenari complicati, ma sono spesso dispendiose sia in termini di tempo che di memoria richiesta, il che ne limita l'applicabilità. Una possibilità è quella di sostituire questi simulatori con più veloci emulatori; tra questi, uno dei più utilizzati è il kriging. Emanuele Borgonovo, ordinario del Dipartimento di Scienze delle Decisioni della Bocconi, ha sviluppato un nuovo algoritmo di kriging che riduce significativamente il tempo di esecuzione e l'utilizzo della memoria senza sacrificare la precisione. Questo permette di applicare il kriging a modelli più complessi e dataset più ampi.
Il kriging prende il nome da D. G. Krige (1919-2013), uno statistico e ingegnere minerario sudafricano che è stato il pioniere di questa tecnica fin dalla sua tesi di laurea. Krige voleva stimare la distribuzione più probabile dell'oro sulla base di campioni provenienti da alcune trivellazioni lungo il sistema collinare del Witwatersrand in Sudafrica. Il kriging, noto anche come Gaussian process regression tra gli statistici, permette di eseguire tale interpolazione, non solo prevedendo i valori in punti non osservati, ma quantificando anche l'incertezza della previsione. L'ipotesi di gaussianità permette di ricavare espressioni in forma chiusa sia per la previsione che per l'incertezza. Ciò ha contribuito al successo del kriging in vari campi, tra cui la statistica spaziale e gli esperimenti di simulazione.
Tuttavia, tali espressioni in forma chiusa richiedono l'inversione di una matrice con n righe e n colonne, dove n è il numero di rilevazioni, e il costo computazionale di questa operazione cresce rapidamente con n. Un modo per ridurre il costo computazionale è quello di utilizzare un sottoinsieme opportunamente selezionato dei dati e di rendere la previsione localmente dipendente dalle rilevazioni più vicine. In particolare, Borgonovo e i suoi coautori - Xuefei Lu (PhD in Statistica alla Bocconi nel 2019 e ora assistant professor all'Università di Edimburgo), Alessandro Rudi e Lorenzo Rosasco - hanno fatto ricorso alla regolarizzazione di Nyström, un metodo che seleziona un numero m di centri Nyström (di solito un sottoinsieme dei dati), con m molto più piccolo di n. Gli autori hanno quantificato anche la discrepanza tra la stima ottenuta con il kriging classico e l'approssimazione da loro proposta. Tale discrepanza diminuisce a mano a mano che m cresce, mentre il tempo di esecuzione e le esigenze di memoria crescono con m, evidenziando così la necessità di un compromesso tra precisione e guadagno computazionale. Le espressioni analitiche fornite per l'errore di approssimazione sono fondamentali per scegliere l'equilibrio desiderato tra accuratezza e risorse computazionali disponibili.
"Il kriging è un metodo con una lunga storia", dice Borgonovo, "ma è ancora un argomento molto vivo, al crocevia tra esperimenti di simulazione e machine learning, due campi di ricerca in rapida crescita i cui progressi stanno iniziando a superare le barriere disciplinari. questo interscambio, abbiamo proposto un nuovo algoritmo di kriging che riduce il tempo di esecuzione e i requisiti di memoria, permettendo così di gestire dataset molto più grandi e modelli più complessi. Prima di questo lavoro, lo stato dell'arte del kriging era costituito da dataset di meno di 100 punti e modelli con meno di 100 variabili, mentre il nostro metodo si è dimostrato in grado di gestire un dataset di migliaia di punti e modelli con 40.000 variabili. Si tratta di un notevole passo avanti nell'uso del kriging per i big data",
Xuefei Lu, Alessandro Rudi, Emanuele Borgonovo, Lorenzo Rosasco (2020) "Faster Kriging: Facing High-Dimensional Simulators". Operations Research 68(1):233-249.