Un nuovo modello per gestire ogni correlazione
Nella statistica bayesiana, ossia l’approccio che consente di aggiornare le conoscenze su un fenomeno attraverso l’uso di misure di probabilità, modellizzare la dipendenza tra dati eterogenei è cruciale. Elaborare un modello infatti permette di integrare fonti diverse di dati per migliorare i risultati dell’analisi, evitando che le conclusioni si basino solo su un singolo campione. Tuttavia, modellizzare questa dipendenza può essere a volte molto complicato. Ciò avviene soprattutto nel caso di modelli complessi, come nel caso dei modelli bayesiani nonparametrici. I modelli esistenti infatti si limitano a modellare correlazioni positive tra dati di fonti diverse: un’ipotesi appropriata solo quando i dati raccolti da diverse fonti tendono a variare nella stessa direzione.
Filippo Ascolani, Beatrice Franzolini, Antonio Lijoi e Igor Prünster, del Bocconi Institute for Data Science and Analytics (Bidsa), sono riusciti a superare questo limite, introducendo un nuovo modello in grado di gestire qualsiasi tipo di correlazione nel loro paper “Nonparametric priors with full-range borrowing of information”. Nel dettaglio, lo studio introduce un modello che utilizza CRM (Completely Random Measures) con Full-range Borrowing of Information (n-FuRBI). Il modello combina la flessibilità della costruzione di serie casuali con la trattabilità analitica delle CRM. Ciò è ottenuto grazie ad un concetto nuovo, chiamato iper-legame (hyper-tie), e rappresenta una misura diretta e semplice della dipendenza.
L'idea chiave del nuovo modello di Ascolani e dei suoi coautori consiste nel fatto che le correlazioni tra dati raccolti da fonti diverse sono determinate dai legami tra i parametri latenti che li generano. Nei modelli nonparametrici esistenti, i parametri corrispondenti a due osservazioni raccolte da due fonti diverse, che possono coincidere o essere indipendenti. Nel nuovo modello, essi possono essere dipendenti anche senza necessariamente coincidere. Questa nuova struttura latente permette loro di ottenere modelli più flessibili, che ammettono anche correlazione negativa tra fonti di dati diverse.
Il modello è stato testato dai ricercatori sia su dati simulati che su dati reali. In quest’ultimo caso, è stato impiegato per predire rendimenti di azioni e obbligazioni e per raggruppare gli studenti in cluster in base ai loro risultati ad alcuni test. Il nuovo modello ha mostrato prestazioni superiori rispetto agli altri metodi esistenti, fornendo previsioni più accurate e una capacità di clustering più precisa, anche in presenza di dati mancanti.
In termini di previsioni, il modello n-FuRBI offre maggiore flessibilità, potendo incorporare sia relazioni positive che negative tra fonti diverse. Questo permette di effettuare stime più precise anche in scenari complessi, dove le variabili non si comportano in modo omogeneo. Infine, i modelli n-FuRBI consentono anche una varietà di estensioni interessanti. Tali modelli infatti possono essere visti come elementi costitutivi efficaci per modellare relazioni di dipendenza non banali nel caso di analisi di dati più complesse.