Il machine learning che usa le campagne elettorali per capire il linguaggio dei politici
Il numero crescente di pubblicazioni che utilizzano il testo come fonte principale di dati va di pari passo con lo sviluppo di nuovi metodi di analisi, basati su tecniche di machine learning. Nel loro ultimo lavoro su Political Analysis, Massimo Morelli (Dipartimento di Economia della Bocconi), Moritz Osnabrügge (Durham University) ed Elliott Ash (ETH di Zurigo) hanno sviluppato un metodo per analizzare il testo dei discorsi parlamentari basandosi su testi già codificati dei programmi elettorali.
Questo nuovo metodo "cross-domain" presenta diversi vantaggi, come l'abbattimento dei costi e la possibilità di affidarsi a un corpus di testi già codificati da ricercatori esperti. Gli autori, applicando questo nuovo metodo anche ai discorsi parlamentari in Nuova Zelanda, hanno osservato che le donne parlamentari discutono di argomenti legati al welfare molto più spesso dei maschi.
La maggior parte degli studi esistenti che impiegano l'analisi del testo utilizzano il cosiddetto apprendimento supervisionato "within-domain". Questo metodo prevede che il software venga addestrato su un sottocampione di testo codificato a mano, al fine di espandere il metodo utilizzato da un ricercatore esperto su corpi di testo più ampi. Sfortunatamente, questi metodi hanno due limiti principali: il sottocampione su cui viene addestrata la macchina deve essere dello stesso tipo del corpo più grande (ecco perché si chiama "within-domain") e un codificatore umano è ancora necessario per eseguire le annotazioni iniziali sul sottocampione. In particolare, il costo della codifica umana può essere piuttosto elevato e può gravare ulteriormente sui vincoli di budget del ricercatore.
Per ovviare a queste limitazioni, molti studiosi hanno utilizzato i cosiddetti modelli non supervisionati, in cui un algoritmo fornisce una distribuzione di probabilità interpretabile sull'argomento di cui ci si aspetta che un corpo di testo parli. Questo metodo non richiede una codifica manuale del testo. Tuttavia, gli autori sostengono che, anche se può fornire risultati interessanti, presenta alcuni limiti. In particolare, i risultati di questi modelli non sono facili da interpretare, non funzionano su corpus multilingue e possono essere più sensibili alle perturbazioni non osservate nei dati.
Per ovviare ai problemi legati alla codifica tradizionale e ai modelli non supervisionati, gli autori hanno implementato un metodo di apprendimento supervisionato che viene addestrato sul Manifesto Project (un archivio di testi codificati e analizzati provenienti da programmi elettorali e discorsi di diversi Paesi) e applicato a un dominio diverso, ovvero i discorsi parlamentari. Questo fornisce un ampio corpus di testi multilingue già codificati da ricercatori esperti su diverse dimensioni politiche, come la pianificazione economica, l'ambiente e molte altre. In questo modo, Morelli e i coautori possono superare la necessità di una nuova codifica manuale nello studio dei discorsi parlamentari. Ovviamente, ad oggi, il metodo può essere applicato solo su corpus linguisticamente adiacenti al testo originale codificato. Ciononostante, fornisce risultati promettenti se confrontato con i testi analizzati tradizionalmente.
Infine, gli autori illustrano due applicazioni trasversali di questo metodo. In primo luogo, scoprono che dopo la riforma elettorale del 1993 in Nuova Zelanda, i discorsi parlamentari hanno mostrato una crescente attenzione per le questioni legate all'autorità politica, come la stabilità politica e la competenza dei partiti. Ciò è probabilmente legato al fatto che la transizione verso un sistema elettorale proporzionale ha incentivato la creazione di nuovi partiti e la formazione di alleanze, modificando l'esperienza complessiva della stabilità politica nel Paese. Poi, studiano anche come il genere dei parlamentari sia correlato alla partecipazione al dibattito su determinati argomenti. In particolare, scoprono che le donne parlano significativamente di più di welfare, mentre gli uomini sono più interessati alle relazioni esterne e alla politica estera.
Moritz Osnabrügge, Elliott Ash, Massimo Morelli, "Cross-Domain Topic Classification for Political Texts." Political Analysis, Early View, DOI: https://doi.org/10.1017/pan.2021.37.