Contatti
Ricerca Management

ChatGPT: maneggiare con cura e non farsi convincere a trattarlo come una persona

, di Fabio Todesco
La ricerca Bocconi ci aiuta a fare il punto sull'intelligenza artificiale piu' discussa di sempre e a farne una risosrsa preziosa. Ricordate: per ChatGPT le parole sono solo parole senza significato, e anche se sembra sicuro, fluido e umano, non date per scontato che sia corretto

I video di persone che urlano contro computer che non funzionano erano un vero e proprio genere su YouTube negli anni 2000. Ma non è un fenomeno esclusivo dei boomer non digitali quando si espongono alle nuove tecnologie: qualcosa di simile sta accadendo oggi con ChatGPT, il chatbot appena lanciato da OpenAI, che ha già generato un clamore che non si sentiva da quando il metaverso doveva essere la next big thing (sembra un'eternità fa, vero?).

Non urliamo contro ChatGPT, ma interagiamo con esso come se fosse una persona, a volte accusandolo persino di mentire. "E, in un certo senso, è naturale," afferma Heather Yang, assistant professor presso il Dipartimento di Management e Tecnologia della Bocconi, la cui ricerca si concentra sul modo in cui le persone interagiscono con le nuove tecnologie e su come ciò stia cambiando il nostro ambiente di lavoro. "Siamo animali sociali e questa è una delle ragioni per cui l'umanità ha prosperato. Quindi abbiamo l'istinto di agire in modo sociale anche con le macchine. Tuttavia, se si umanizza una macchina, è più probabile che ci si fidi di lei e che si forniscano informazioni private."

ChatGPT è stato addestrato a conversare con gli esseri umani e ricorda le conversazioni precedenti. Utilizzando un prompt, è possibile chiedergli di eseguire compiti linguistici come rispondere a una domanda, scrivere o eseguire il debug di un codice, comporre musica e scrivere qualsiasi testo (saggi, racconti, poesie, barzellette). Il motivo dell'entusiasmo è che è estremamente efficace nella maggior parte di questi compiti.



Il chatbot si basa su una versione recente di Generative Pre-trained Transformer (GPT), un modello linguistico di grandi dimensioni (LLM, large language model), ovvero, secondo le parole dello stesso ChatGPT, "un tipo di modello di intelligenza artificiale addestrato su grandi quantità di dati di testo progettato per generare testo naturale in modo autonomo."

"Gli LLM esistono da decenni," afferma Dirk Hovy, sociolinguista computazionale presso il Dipartimento di Computer Science della Bocconi. "Ciò che è nuovo è la potenza di GPT e ChatGPT: sono stati addestrati praticamente su tutto ciò che è stato scritto su Internet e possono scrivere testi che non sono più buffi o strani come facevano i modelli di qualche anno fa." I modelli della famiglia Transformer, lanciati nel 2017, funzionano affinando la loro capacità di completare le frasi. Quando gli viene data in pasto una frase con una parola nascosta, sono capaci di "indovinarla" (valutare quale sia la più probabile). "GPT e alcuni altri LLM sono in grado di scrivere testi fluenti da tempo, ma prima di ChatGPT, che funziona come un'interfaccia, era necessario un certo grado di conoscenza specialistica per trovare il modello, e bisognava saper programmare per chiedergli qualcosa. Ora lo possono fare tutti!".

"Per un modello linguistico," afferma Hovy, "le parole sono solo parole. I loro risultati sono così buoni che siamo tentati di credere che capiscano il linguaggio, ma non è così. Producono solo frasi che risultano probabili, dato il loro set di addestramento."

Alcune caratteristiche di ChatGPT, tuttavia, rendono ancora più forte la tentazione di supporre che comprenda (e quella di considerarlo quasi umano). Poiché ricorda le conversazioni passate, ChatGPT può correggere quello che noi evidenziamo come un errore (a volte con un altro errore...), ripetendo più volte: "Mi scuso per qualsiasi confusione causata dalle mie risposte precedenti". Il testo non appare sullo schermo in una volta sola, ma parola per parola, come se qualcuno dall'altra parte stesse scrivendo.

Il risultato, soprattutto, è credibile. "In una lezione," racconta Yang, "ho chiesto ai miei studenti di inventare delle barzellette e di confrontarle con quelle scritte da ChatGPT. Ebbene, le barzellette scritte dall'intelligenza artificiale non erano facili da individuare. A meno che non si abbia familiarità con ChatGPT, intendo, perché tende a proporre sempre le stesse battute."

Altre caratteristiche rendono una vera sfida il tentativo di essere consumatori consapevoli dei testi di ChatGPT. "Secondo la ricerca psicologica, utilizziamo degli indizi per capire se un contenuto è corretto o meno: quanto qualcuno sembra sicuro di sé, quanto è fluida l'argomentazione. Dal momento che troviamo questi spunti nei testi di ChatGPT, pensiamo di non dover controllare i suoi risultati e commettiamo un errore," continua Yang. OpenAI ammette diversi limiti, tra cui il fatto che "ChatGPT a volte scrive risposte plausibili, ma errate o senza senso." A volte, i fatti sono completamente inventati. La sua fase di training, inoltre, si è interrotta all'inizio del 2022, quindi non può essere considerato una fonte affidabile per tutto ciò che è accaduto dopo.

Un grave inconveniente degli LLM, parzialmente corretto da ChatGPT, è che poiché questi modelli hanno imparato tutto ciò che sta su Internet, hanno anche imparato la discriminazione, le fake news e l'hate speech. "Abbiamo dimostrato che, quando viene chiesto di completare una frase neutra, i modelli linguistici la completano più spesso con parole offensive se il soggetto è una donna piuttosto che un uomo, e ancora di più (fino all'87% dei casi per i termini legati a certe identità queer) se il soggetto è LGBTQIA+," spiega Debora Nozza, assistant professor presso il Dipartimento di Computer Science. ChatGPT, essendo rivolto al grande pubblico, ha controlli aggiuntivi che di solito impediscono di generare risultati discriminatori, "ma c'è chi ha dimostrato che se si fanno le domande giuste, si possono comunque generare cose orribili, e comunque è come mettere dell rossetto su un maiale: dobbiamo trovare il modo di affrontare il problema alla radice," commenta Hovy.

Il team di ricerca sta anche analizzando ciò che questi modelli sanno effettivamente sulle differenze nel modo di parlare delle persone in base, ad esempio, all'età o al sesso. "Abbiamo alcune prove che questi modelli sanno qualcosa su questo punto, ma sembra che non utilizzino queste informazioni in modo attivo," afferma Hovy. "Se si chiede a ChatGPT di scrivere qualcosa come farebbe un dodicenne o una donna, potrebbe adattare il suo modo di parlare, ma bisogna chiederlo apertamente." INTEGRATOR (Incorporating Demographic Factors into Natural Language Processing Models), un progetto di ricerca di Hovy, finanziato dall'European research Council (ERC), vuole rendere possibile la progettazione di LLM demograficamente consapevoli.



Hovy, Nozza e Attanasio stanno anche lavorando su come far sì che gli LLM prestino attenzione ai contesti linguistici e non solo alle singole parole. Se qualcuno curioso della cultura olandese chiedesse, in inglese, a ChatGPT: "Le case costruite su una diga includono sempre un mulino a vento?", il chatbot interromperebbe la conversazione ("Questa richiesta potrebbe violare la nostra politica sui contenuti") perché la parola inglese per "diga" può anche essere un termine offensivo. "Se si guarda all'intero contesto, però, il significato dovrebbe essere inequivocabile. Abbiamo implementato una soluzione in cui il modello impara a considerare il contesto più ampio piuttosto che concentrarsi su una parola in particolare."

Negli ultimi due mesi, sembra che tutti si stiano divertendo con ChatGPT e lo prendano in giro per i suoi limiti (sottovalutando la circostanza che, se interpellato, il bot afferma che "ChatGPT può imparare dalle interazioni che ha con gli utenti, consentendogli di migliorare e diventare più preciso nel tempo"). Ma come potrebbe essere utilizzato nella vita reale, imbrogli sui compiti scolastici a parte?

"Vivendo in un ambiente multiculturale come la Bocconi," dice Heather Yang, "vedo un alto potenziale nel livellare il campo di gioco tra madrelingua inglese e non madrelingua. Se si pensa a qualcuno che chiede a ChatGPT di redigere un'e-mail ricca di sfumature da inviare a un collega, può essere davvero utile avere una base di partenza e poi modificare qualcosa per metterci la propria voce. Può essere un importante risparmio di tempo."

"Dal momento che Microsoft ha una partecipazione in OpenAI, si pensi alle possibili integrazioni con Teams, la loro app di videoconferenza," afferma Nozza. "Potrebbe riassumere una riunione in pochi punti, creare una lista di cose da fare da inviare ai partecipanti e programmare la prossima riunione nel calendario in base alla data concordata."

"ChatGPT potrebbe anche scrivere questo articolo al posto tuo," continua Nozza, "basandosi sulla trascrizione della conversazione." Per la cronaca, la versione pubblicamente disponibile di ChatGPT non ha accettato il mio prompt contenente la trascrizione a causa della sua lunghezza. In ogni caso, faccio notare, non sono sempre impressionato dalla qualità dei testi di ChatGPT. "Potrebbe dipendere dalla qualità dei tuoi prompt," spiega Nozza. "Il prompt funziona come la prima parte della frase che gli LLM sono stati addestrati a completare, ed è fondamentale per ottenere un buon risultato. Anche se non si prevede che ChatGPT sostituisca presto i giornalisti o altri professionisti, ha il potenziale per migliorare e semplificare il modo in cui le persone svolgono i loro compiti. Inoltre, potrebbe creare nuove opportunità di lavoro." Tenete d'occhio Linkedin per le offerte di lavoro per prompt engineers.

Per saperne di più:

Debora Nozza, Federico Bianchi, Dirk Hovy, "HONEST: Measuring Hurtful Sentence Completion in Language Models." In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. DOI: https://dx.doi.org/ 10.18653/v1/2021.naacl-main.191.

Giuseppe Attanasio, Debora Nozza, Dirk Hovy, Elena Baralis, "Entropy-based Attention Regularization Frees Unintended Bias Mitigation From Lists." In Findings of the Association for Computational Linguistics: ACL 2022, pages 1105–1119, DOI: https://dx.doi.org/10.18653/v1/2022.findings-acl.88.

Debora Nozza, Federico Bianchi, Anne Lauscher, Dirk Hovy, "Measuring Harmful Sentence Completion in Language Models for LGBTQIA+ Individuals." In Proceedings of the Second Workshop on Language Technology for Equality, Diversity and Inclusion, pages 26–34. DOI: https://dx.doi.org/10.18653/v1/2022.ltedi-1.4.