Prevedere l'esito delle elezioni integrando big e wide data
Dopo la crisi finanziaria del 2008, in Europa sono nati 45 nuovi partiti, pronti a capitalizzare il malcontento degli elettori verso le politiche di austerità. Questi nuovi partiti - che spaziano dall'estrema sinistra all'estrema destra - hanno ottenuto un numero significativo di seggi (18,3% del totale nel 2016). In un tale scenario, prevedere i risultati delle elezioni è ancora più importante del solito, ma anche più difficile a causa dell'assenza di dati storici su questi partiti emergenti.
Nella maggior parte dei paesi europei, ci sono tre diverse fonti di dati che possono aiutarci a prevedere l'esito delle elezioni. La prima comprende i sondaggi che vengono pubblicati dai media e dalle istituzioni durante la campagna elettorale, anche fino a un paio di giorni prima delle elezioni. Questi dati sono abbondanti, ma anche soggetti a una serie di distorsioni e riflettono solo il sentimento medio nazionale, mentre nella maggior parte dei paesi europei i seggi sono assegnati in base ai voti nei distretti locali. Una seconda fonte di informazioni è rappresentata dalle attività sui social media, che sono più difficili da raccogliere e potenzialmente ancora più distorte. Queste due fonti di informazione sono esempi di "big" data, almeno in confronto alla terza, che consiste in sondaggi più accurati, che utilizzano campioni stratificati geograficamente e demograficamente. Queste indagini sono condotte da istituti nazionali e riportano una serie di caratteristiche degli elettori oltre alle loro intenzioni di voto. In tal senso, questi possono essere chiamati "wide" data (dati "ampi"). Tuttavia, tra le altre cose, questi sondaggi vengono condotti con mesi di anticipo, quindi non sono in grado di catturare i cambiamenti che possono verificarsi a ridosso delle elezioni. Considerando tutte e tre queste fonti di informazione, i dati per prevedere l'esito delle elezioni sono abbondanti ma "sporchi", e provengono da fonti eterogenee. Ciascuna di queste fonti non è pienamente informativa se considerata individualmente, ma la loro sintesi lo è. Tuttavia il problema di sintetizzare questi dati è tutt'altro che banale.
Omiros Papaspiliopoulos, nuovo full professor alla Bocconi (Dipartimento di Scienze delle Decisioni), ha iniziato a lavorare su questo problema nel 2015, insieme a José Garcia-Montalvo (UPF), un importante economista applicato, e Timothée Stumpf-Fetizon (Warwick), che allora si era appena laureato del Master in Data Science della Barcelona Graduate School of Economics che il professor Papaspiliopoulos ha fondato nel 2013 e diretto fino al 2020. Oltre a questioni modellistiche e di data warehousing, questo progetto poneva seri problemi computazionali, che si sono rivelati di rilevanza molto più ampia, applicandosi più in generale a modelli e dati sparsi e ad alta dimensionalità. Papaspiliopoulos, il cui principale ambito di ricerca è la metodologia statistica e computazionale, ha riconosciuto queste strutture comuni e – insieme a Gareth Roberts (Warwick) e Giacomo Zanella (assistant professor alla Bocconi) – ha sviluppato nuovi approcci computazionali "scalabili", il cui tempo di esecuzione, cioè, aumenta solo linearmente con la quantità di dati e la dimensione del modello. Questo rende tali metodi concretamente utilizzabili in applicazioni su larga scala.
Questa interazione tra problemi applicati e innovazioni metodologiche è tutt'altro che insolita nei lavori di Papaspiliopoulos. "Penso che i progetti che – come questo – partono da contesti applicati siano molto stimolanti per noi statistici: ci fanno riflettere su nuovi problemi e auspicabilmente progettare nuove soluzioni. Lo stesso vale per i progetti di consulenza, che ci spingono fuori dalla nostra zona di comfort accademico e possono aiutarci ad essere più pragmatici. Naturalmente questo non significa essere meno rigorosi. Al contrario, il rigore scientifico costituisce la nostra identità e il nostro potenziale contributo, sia al settore privato che a quello pubblico. Soprattutto quando le previsioni sono destinate ai responsabili politici, è fondamentale che la metodologia utilizzata sia trasparente, interpretabile e scientificamente giustificata".
Per saperne di più
Montalvo, J. G., Papaspiliopoulos, O., & Stumpf-Fétizon, T. (2019). "Bayesian Forecasting of Electoral Outcomes with New Parties' Competition." European Journal of Political Economy, 59, 52-70. https://doi.org/10.1016/j.ejpoleco.2019.01.006
Papaspiliopoulos, O., Roberts, G. O., & Zanella, G. (2020). "Scalable Inference for Crossed Random Effects Models." Biometrika, 107(1), 25-40. https://doi.org/10.1093/biomet/asz058
Papaspiliopoulos, O., Stumpf-Fetizon, T. & Zanella, G. (2021) "Scalable Computation for Bayesian Hierarchical Models," preprint su arXiv, 1-48, https://arxiv.org/abs/2103.10875