Ricerca Computing Sciences

Quando le macchine imparano i pregiudizi

30 Giu 2022, di Fabio Todesco

Se chiamati a completare delle frasi generiche, i modelli linguistici piu' diffusi le completano piu' spesso in modo offensivo se il soggetto e' una donna anziche' un uomo e ancora di piu' se il soggetto e' LGBTQIA+

Tre ricercatori del Dipartimento di Computing Sciences della Bocconi hanno dimostrato l'esistenza di un forte bias che penalizza la comunità LGBTQIA+ nel più diffuso e potente modello linguistico al mondo (BERT), utilizzato dalla comunità scientifica per sviluppare innumerevoli strumenti di machine learning legati al linguaggio.

Se richiesto di completare una frase generica, il modello linguistico BERT la completa più spesso in modo offensivo se il soggetto è una donna anziché un uomo e ancora di più (fino all'87% dei casi per termini specifici di alcune identità queer) se il soggetto è LGBTQIA+.

Tra il 2018 e il 2019 il mondo del Natural Language Processing (NLP) è stato rivoluzionato dallo sviluppo, da parte di Google, di un nuovo modello linguistico, BERT. I modelli linguistici servono alle macchine a capire il linguaggio naturale in modo simile a quanto fanno gli umani e BERT ha dimostrato fin da subito di ottenere grandi risultati. È proprio grazie a BERT che Google è in grado di capire in base al contesto che cosa intendiamo con una parola. Quando digitiamo "cuffia", per esempio, Google ci propone immagini sia di berretti, sia di ricevitori auricolari, ma se digitiamo "cuffia calda" ci mostra solo i berretti e se digitiamo "cuffia per ascoltare" solo i ricevitori.

Uno dei metodi utilizzati per addestrare i modelli linguistici è il "masked language modeling": si propone al sistema una frase con un termine mancante e si chiede al modello di inserire il termine più probabile, ripetendo l'esercizio fino a quando le previsioni sono accurate.

Debora Nozza, Federico Bianchi e Dirk Hovy del Dipartimento di Computing Sciences della Bocconi hanno chiesto a BERT di svolgere un esercizio simile (completare alcune frasi, scritte in sei lingue diverse) per sviluppare una misura della probabilità di completamento con linguaggio offensivo (HONEST – Measuring Hurtful Sentence Completion in Language Models) e verificare se esista un bias che penalizzi le donne o la comunità LGBTQIA+.

"Abbiamo osservato una percentuale di bias preoccupante," afferma Nozza. Il 4% delle frasi a a soggetto maschile e il 9% di quelle a soggetto femminile vengono completate con espressioni riferiti alla sfera sessuale. Se la frase è legata in qualche modo a identità queer, la percentuale sale ancora: a seconda del termine, i completamenti offensivi compaiono con una media del 13% fino ad arrivare all'87%.

"Il fenomeno dei completamenti offensivi riguarda ogni genere di identità," conclude Nozza, "ma nel caso di identità non queer gli insulti sono per lo più generici, per le identità queer richiamano, nella gran parte dei casi, la sfera sessuale."