Le reti neurali catturano le tonalita' della nostra lingua online
Una nuova tecnica di machine learning ci permette di catturare le variazioni linguistiche e dialettali e la loro evoluzione attraverso l'analisi di ciò che le persone scrivono sui social media.
In due lavori recenti, Dirk Hovy, sociolinguista computazionale e professore associato presso il Dipartimento di Marketing della Bocconi, utilizza un metodo innovativo per elaborare grandi quantità di dati dei social media e cogliere differenze linguistiche graduali. Il metodo fornisce un chiaro riferimento visivo (una mappa) che può servire come input per ulteriori studi qualitativi. Ha anche applicazioni dirette per la profilazione degli utenti (per scoprire dove si trova un utente di social media, come dimostrato in un terzo articolo). Più in generale, ha conseguenze sulla personalizzazione degli strumenti di analisi del testo per renderli più resistenti alle variazioni linguistiche, un passo importante per affrontare il crescente problema della distorsione algoritmica.
L'algoritmo utilizza la tecnica delle reti neurali per derivare i modelli dai dati. All'inizio, l'algoritmo non sa nulla delle lingue, ma osserva somiglianze linguistiche nei dati geolocalizzati, e li colloca in uno spazio a 100 dimensioni. Le dimensioni non hanno un significato intuitivo e interpretabile, ma segnano solo le distanze tra i datapoint, come inteso dalla rete neurale. All'interno di questo spazio, l'algoritmo impara a disporre parole e frasi secondo il loro significato (parole con significato simile sono disposte più vicine tra loro).
Una volta terminato l'algoritmo, la complessità può essere ridotta matematicamente per visualizzare i dati, passando da una rappresentazione a 100 dimensioni a una rappresentazione tridimensionale. Ogni dimensione viene poi convenzionalmente definita come una quantità di rosso, verde e blu e ogni punto viene rappresentato come miscela di questi tre colori. I valori 0,5, 0,5, 0.5 e 0,5, ad esempio, corrispondono ad un grigio medio.
Nel primo studio, per un capitolo di un libro di prossima pubblicazione, Hovy utilizza 95 milioni di tweet geolocalizzati per disegnare una mappa delle variazioni linguistiche in Europa, nonché mappe dei singoli paesi.
La mappa europea mostra che il metodo riconosce chiaramente le famiglie linguistiche, con le lingue romanze, germaniche e slave nettamente distinte per tonalità, così come diversi confini intra-nazionali: il Belgio è diviso lungo una linea orizzontale (di lingua fiamminga nel nord, francofona nel sud), mentre la Svizzera e parte dell'Italia settentrionale (in entrambe sono presenti le lingue tedesca, francese e italiana) segnano una transizione più fluida. La tonalità delle isole britanniche evidenzia l'influsso delle lingue romanze su una radice germanica. Nell'ex Jugoslavia, la Slovenia e la Bosnia Erzegovina sembrano discostarsi in parte dalla tradizione linguistica slava, segnando forse in questo modo l'emergere di discontinuità sociali e religiose.
«Il metodo che usiamo è empirico, con la lingua e gli informatori individuali trasformati in numeri, celle e colori, ma i risultati consentono nuove e sorprendenti intuizioni sulla variazione regionale della lingua», dice Hovy. Può quindi essere facilmente applicato a nuovi campioni e lingue.
Una metodologia molto simile viene utilizzata da Hovy per studiare le somiglianze e le differenze linguistiche tra le città dei paesi di lingua tedesca in Europa (Germania, Svizzera e Austria). Questa volta, la rete neurale è stata utilizzata su 2,3 milioni di conversazioni (o 16,8 milioni di messaggi) su Jodel, una chat mobile anonima. Anche se di solito le persone postano in tedesco, le mappe risultanti mostrano un gradiente dialettale da nord a sud, con la Svizzera come entità separata, confermando ciò che sappiamo dei dialetti tedeschi. Allo stesso tempo, però, evidenzia anche come i cambiamenti sociodemografici stiano influenzando la lingua. La città di Würzburg, ad esempio, è bavarese che sembra non parlare bavarese, ma un dialetto occidentale, a causa dell'influenza di una grande popolazione studentesca universitaria proveniente dalle parti occidentali della Germania.
I risultati dello studio contraddicono direttamente la percezione comune che i dialetti stiano scomparendo nella vita moderna. Pur non distinguendo più tra singole città, lo studio dimostra che i dialetti sono radicati a un livello regionale più ampio, anche su piattaforme anonime di social media, dove le persone dovrebbero avere pochi motivi per marcare la loro origine. Anche questa scoperta ha ramificazioni economiche: studi recenti hanno dimostrato che le persone preferiscono spostarsi rimanendo nella loro regione dialettale, piuttosto che cercare lavoro in una città più vicina, ma in una zona dialettale diversa.
Christoph Purschke and Dirk Hovy, Lörres, Möppes, and the Swiss. (Re)Discovering Regional Patterns in Anonymous Social Media Data, forthcoming in Journal of Linguistic Geography.
Dirk Hovy, Afshin Rahimi, Timothy Baldwin, Julian Brooke, Visualizing Regional Language Variation Across Europe on Twitter, in Stanley D. Brunn, Roland Keherein (eds.), Handbook of the Changing World Language, Springer, 2019.