La teoria che semplifica problemi complessi
L'inferenza bayesiana non parametrica individua un approccio molto flessibile ed efficace per l'analisi di fenomeni complessi. Un ambito applicativo in cui è stato usato con successo riguarda gli esperimenti di sequenziamento del Dna: consente di prevedere il numero di nuovi geni che si scoprirebbero in un campione aggiuntivo analizzando solo una piccola frazione di una libreria genomica. Il problema previsivo si complica enormemente quando si hanno a disposizione sequenze genomiche prese da tessuti diversi di un organismo animale o vegetale, ovvero quando si hanno a disposizione dati eterogenei. È il problema affrontato da Antonio Lijoi e Igor Pruenster (Bocconi), Federico Camerlenghi e Peter Orbanz in Distribution Theory for Hierarchical Processes, che è in corso di pubblicazione sugli Annals of Statistics. Lo studio propone un modello generale per popolazioni eterogenee con potenziali applicazioni non solo nel campo della genomica, ma anche in varie aree del machine learning.
Sono popolazioni eterogenee, per esempio, pazienti trattati in diversi ospedali o documenti emessi da diverse aree di una stessa istituzione, che comunque condividono alcune caratteristiche comuni. «Per affrontare questo problema si usano i processi gerarchici che sono caratterizzati dalla composizione di più elementi aleatori infinito-dimensionali» spiega Antonio Lijoi. «Lo studio presenta risultati teorici e descrive due classi di algoritmi di immediata implementazione. Gli algoritmi marginali forniscono un'approssimazione delle leggi predittive su popolazioni eterogenee. Gli algoritmi della seconda classe, detti condizionali, permettono di generare realizzazioni delle misure di probabilità aleatorie sottostanti il modello, condizionatamente ai dati. Questo consente non solo di fare previsioni ma di ottenere, anche, una misura più affidabile dell'incertezza a esse associata».
Alcuni sviluppi promettenti di questo studio riguardano l'analisi della sopravvivenza in presenza di dati dipendenti da covariate.
Per saperne di più
Insegnare alle macchine per imparare di più
Imparare è una questione quantica
Il chip dell'influenza che batte il virus
Un modello (statistico) per la vita
Come studiare le reti di connessione
L'algoritmo che previene il suicidio