Contatti

Un nuovo modo per individuare schemi ricorrenti nei dati complessi

, di Andrea Costa
Nuova ricerca di Sonia Petrone e colleghi sui processi Pitman–Yor arricchiti

In molti ambiti, i dati tendono naturalmente a formare strutture gerarchiche. Tuttavia, i modelli tradizionali faticano a rappresentare il modo in cui emergono nuove sottocategorie all’interno di quelle esistenti, considerando spesso ogni nuova scoperta come se fosse indipendente, invece che parte di un sistema strutturato. Un nuovo articolo di Sonia Petrone, del Dipartimento di Scienze delle Decisioni della Bocconi, insieme a Tommaso Rigon (Università di Milano-Bicocca) e Bruno Scarpa (Università di Padova), intitolato "Enriched Pitman–Yor Processes", pubblicato sulla Scandinavian Journal of Statistics, introduce un’innovazione matematica che offre un metodo più flessibile e realistico per modellare dati complessi.

I metodi bayesiani non parametrici forniscono una notevole flessibilità nella modellizzazione dei dati, ma approcci consolidati come i processi di Dirichlet e i processi di Pitman–Yor mostrano limiti quando si tratta di clustering nidificato. Possiamo immaginare il clustering nidificato come un sistema di classificazione dei dati in categorie—prima in gruppi generali (famiglie), poi in sottogruppi (specie), assicurandosi che i nuovi dati siano collocati nella gerarchia corretta invece di creare gruppi completamente nuovi ogni volta. Gli autori introducono il processo Pitman–Yor arricchito (EPY, Enriched Pitman–Yor process), un nuovo modello probabilistico che allarga l’ambito di applicazione dei precedenti approcci, permettendo meccanismi di clustering più raffinati e adattabili.

Un altro contributo chiave dell’articolo è la rappresentazione "square-breaking", che migliora la fattibilità computazionale. Questo metodo fornisce un modo più efficiente per implementare modelli bayesiani non parametrici nella pratica, rendendoli più accessibili alla ricerca applicata.

Per illustrare le possibili applicazioni nella realtà, gli autori sperimentano il processo EPY su un problema di campionamento delle specie in ecologia. Immaginiamo di camminare nella foresta pluviale amazzonica, raccogliendo dati riguardanti gli alberi. I modelli tradizionali presuppongono che la scoperta di una nuova specie corrisponda all’individuazione di una nuova famiglia di alberi. Tuttavia, le specie possono appartenere a famiglie già note, e la loro relazione non è necessariamente univoca. Il processo EPY cattura elegantemente questa struttura nidificata, consentendo previsioni più accurate sulla biodiversità. Questo dimostra il notevole potenziale del modello per la ricerca sulla fauna e la conservazione dell’ambiente.

Sonia Petrone

SONIA PETRONE

Bocconi University
Dipartimento di Scienze delle Decisioni