Alla ricerca del numero perfetto
Se si fosse incaricati di stabilire di che cosa parla un corpus di 200.000 di pagine di documenti, ci si troverebbe di fronte a due difficoltà. La prima, naturalmente, è quella di individuare i temi (topic) trattati in una quantità di pagine difficile da gestire manualmente. La seconda è decidere quanti topic individuare per dare una risposta che non sia né riduttiva (è improbabile, per esempio, che tre topic diano un'idea minimamente esaustiva dei temi trattati in 200.000 pagine), né ingestibile (con 3.000 topic saremmo probabilmente esaurienti, ma di difficile interpretazione).
Una delle migliori soluzioni del problema dell'individuazione dei topic è la tecnica della Latent Dirichlet Allocation (LDA), messa a punto nel 2003. Basandosi su di essa, Francesco Grossetti (Dipartimento di Accounting) e Craig Lewis (Vanderbilt University) propongono oggi una soluzione all'individuazione del numero ottimale di topic attraverso un paper scientifico ("A Statistical Approach for Optimal Topic Model Identification", preprint) e OpTop, un pacchetto informatico che ne implementa la metodologia.
"Quello che presentiamo", dice Grossetti, "è un test statistico, che prescinde dal contesto e dal significato dei topic. In termini tecnici, ogni topic è una collezione ordinata di tutte le parole contenute nel corpus, il cui ordine rappresenta la rilevanza in un particolare topic. È il ricercatore che utilizza questo strumento a doverne interpretare le risposte, assegnando un'etichetta a ogni topic e facendo eventuali scelte di accorpamento di topic molto vicini per significato".
Da parte sua, Grossetti ha già fatto uso della tecnica – e del conseguente utilizzo del giudizio interpretativo – in un paper sulla disclosure finanziaria, che individua i fattori di rischio esplicitati dalle imprese nei loro documenti contabili.