Inseguendo i terroristi su facebook e sul dark web
Tra le varie applicazioni, l'apprendimento automatico è particolarmente prezioso per misurare oggetti che prima non erano misurabili, come il tono di un testo, i colori di un'immagine e molti altri. In questo modo si ottengono nuovi dati su fenomeni che erano impossibili da studiare a causa della loro mancanza di quantificazione. Un esempio che descrive con precisione questo fenomeno è il reclutamento dei terroristi, che ho studiato nel mio articolo "Terrorism Financing, Recruitment and Attacks" pubblicato su Econometrica nel 2022.
Misurare il reclutamento dei terroristi, o dei membri delle organizzazioni criminali in generale, è intrinsecamente complesso perché non è osservabile. Allo stesso tempo, uno dei molti canali attraverso cui i gruppi terroristici reclutano è quello dei forum online (come Facebook, Reddit, ecc.). Per questo motivo, gli algoritmi di apprendimento automatico possono essere utili per rilevare il reclutamento e possono essere costruiti per valutare automaticamente il contenuto di ogni messaggio, determinando se contiene elementi di reclutamento terroristico. Per misurare il reclutamento, ho raccolto dati da vari forum online che operano in Pakistan e che diffondono contenuti a favore del jihadismo. L'Artificial Intelligence Lab dell'Università dell'Arizona ha sviluppato un set di dati contenente più di quattro milioni di messaggi, scambiati tra il 2003 e il 2012 su sei diversi forum operanti in Pakistan. Inoltre, il database include più di 2,5 milioni di messaggi trasmessi su piattaforme del dark web, una rete internet alternativa che richiede un software specifico per l'accesso e la navigazione. Estremisti e gruppi terroristici hanno usato abitualmente queste piattaforme per diffondere il concetto di guerra contro gli infedeli (Jihad). La possibilità di accedere a un numero così elevato di messaggi di testo ha una grande importanza, in quanto può essere utile per quantificare - e quindi ottenere una misura - del fenomeno del reclutamento terroristico. Tuttavia, determinare quali tra questi messaggi abbiano lo scopo di reclutare terroristi è un compito difficile.
Senza un algoritmo specifico, determinare se il contenuto di un messaggio riguarda il reclutamento di terroristi sarebbe proibitivo: giudici e investigatori dovrebbero leggere e analizzare ciascuno dei quattro milioni di messaggi. Per ridurre i costi di questa impresa, è fondamentale implementare un algoritmo di apprendimento automatico che aiuti a classificare un messaggio come neutrale o con intenti di reclutamento. Questo obiettivo può essere raggiunto attraverso una tecnica chiamata Natural Language Processing (elaborazione del linguaggio naturale): un sistema di scienza dei dati in grado di comprendere il contenuto degli script, comprese le sfumature contestuali del linguaggio al loro interno. L'algoritmo funziona attraverso un metodo definito come apprendimento supervisionato, il che implica che deve essere addestrato su un insieme di dati già classificati prima di essere in grado di estrarre con precisione le informazioni contenute in ogni messaggio e categorizzarle. Questo viene fatto basandosi sul lavoro iniziale di due giudici, che hanno esaminato in modo indipendente e manuale un campione casuale di messaggi, evidenziando e contrassegnando tutti quelli che mostrano l'intento di reclutare estremisti violenti. Questo campione costituisce i dati di addestramento e viene utilizzato per insegnare all'algoritmo a riconoscere le conversazioni contenenti materiale di reclutamento. Una volta addestrato, l'algoritmo può essere applicato a tutti i messaggi rimanenti, replicando di fatto il lavoro di diversi giudici.
Implementando questo metodo, sono riuscito a caratterizzare una misura del reclutamento terroristico, che può essere utilizzata per comprendere i fattori determinanti degli attacchi terroristici e può aiutare le agenzie di sicurezza nazionale. La mia ricerca dimostra che l'effetto del finanziamento del terrorismo sugli attacchi aumenta in modo forte e significativo nel reclutamento. Inoltre, questo modo innovativo di classificare i testi scritti può avere vaste applicazioni in studi futuri, in quanto può essere sfruttato in qualsiasi situazione in cui siano necessari esperti per valutare materiale di terzi.