Contatti
Opinioni

Giocando si impara

, di Andrea Celli - assistant professor presso il Dipartimento di scienze della computazione
Dalla protezione di porti e aeroporti alla gestione delle congestioni stradali e delle reti energetiche fino all'offerta per l'allocazione degli annunci online sulle piattaforme pubblicitarie. Sono tutti casi in cui e' necessario prendere decisioni in situazioni non stazionarie in cui agiscono piu' agenti. Come in una partita di poker

Gli agenti di intelligenza artificiale si trovano spesso ad affrontare situazioni in cui devono prendere decisioni in ambienti altamente non stazionari, che possono derivare da fattori come la presenza di altri agenti che prendono decisioni nello stesso momento o manipolazioni strategiche dei dati da parte di un avversario. Di conseguenza, lo sviluppo di algoritmi di apprendimento automatico in grado di apprendere e prendere decisioni in modo efficace in ambienti così dinamici e reattivi è fondamentale.

Negli scenari in cui un agente di intelligenza artificiale interagisce con altri agenti nello stesso ambiente, l'algoritmo di apprendimento deve considerare le interazioni tra le decisioni di ciascun agente, gli obiettivi e l'impatto delle decisioni sull'ambiente. In questi scenari di apprendimento multi-agente, i semplici algoritmi basati sulla discesa del gradiente hanno spesso scarse prestazioni e non possono garantire buone soluzioni. Per esempio, consideriamo uno scenario in cui due agenti di intelligenza artificiale stanno giocando una partita e mirano ad apprendere una strategia vincente. Se entrambi gli agenti utilizzano algoritmi di ottimizzazione standard come la discesa del gradiente, potrebbero rimanere intrappolati in schemi ciclici, con il risultato di non riuscire a convergere verso buone strategie. Ciò evidenzia l'importanza di sviluppare algoritmi personalizzati per questi compiti di apprendimento multi-agente.

Un passo cruciale verso la progettazione di algoritmi di apprendimento multi-agente di successo è l'incorporazione dei principi della teoria dei giochi nella progettazione dell'algoritmo. In particolare, tali algoritmi dovrebbero essere in grado di tenere conto implicitamente degli incentivi di altre entità coinvolte nell'interazione. Un esempio recente di applicazione di successo delle tecniche della teoria computazionale dei giochi è la creazione di IA sovrumane per il poker a due e più giocatori, sviluppata da Noam Brown e Tuomas Sandholm alla Carnegie Mellon University. Questi giochi sono particolarmente complessi, poiché i giocatori non dispongono di informazioni complete sull'ambiente (per esempio, non conoscono le carte in mano agli avversari). L'agente AI sviluppato per questo compito è costituito da tre componenti chiave: un algoritmo che impara un'approssimazione di una strategia di equilibrio giocando ripetutamente contro se stesso (cioè, imparando attraverso un "auto-gioco") e senza alcun input da parte di un essere umano o di un'intelligenza artificiale precedente; un algoritmo di miglioramento dei sottogiochi che migliora la strategia di equilibrio grossolana per i sottogiochi specifici raggiunti durante il gioco; un algoritmo di auto-miglioramento che affronta i potenziali punti deboli identificati dagli avversari nella strategia di equilibrio approssimativa.


Gli algoritmi di calcolo dell'equilibrio combinano tipicamente l'apprendimento automatico e la teoria dei giochi per calcolare strategie di equilibrio per problemi impegnativi che coinvolgono numerosi agenti strategici. Gli algoritmi di calcolo degli equilibri hanno un'ampia gamma di applicazioni che vanno al di là dei giochi come il poker e sono ampiamente utilizzati per affrontare altri problemi del mondo reale. Per esempio, le tecniche di calcolo dell'equilibrio sono utilizzate in scenari in cui è necessario allocare risorse difensive per proteggere ambienti vulnerabili come aeroporti o porti. Altre applicazioni spaziano dai mercati finanziari alla gestione delle congestioni stradali e delle reti energetiche. Inoltre, tali algoritmi di apprendimento sono fondamentali per costruire sistemi di apprendimento automatico che siano robusti agli attacchi avversari e non possano essere sfruttati da agenti maligni. Infine, il quadro di calcolo dell'equilibrio può fornire strumenti preziosi per studiare e comprendere meglio altri problemi di apprendimento automatico più generali. Per esempio, i moderni algoritmi di offerta per l'allocazione degli annunci online sulle piattaforme pubblicitarie di Internet devono soddisfare una serie di vincoli, come il budget e il ritorno sull'investimento (ROI). Questi problemi di ottimizzazione vincolata possono essere modellati come giochi a due giocatori in cui due agenti di intelligenza artificiale competono l'uno contro l'altro e possono essere risolti attraverso algoritmi di apprendimento multi-agente.

Queste sono solo alcune delle applicazioni in cui il calcolo dell'equilibrio e l'apprendimento multiagente svolgono un ruolo significativo. In futuro, con il passaggio a un mondo sempre più interconnesso e in cui diversi compiti e decisioni sono affidati agli algoritmi di IA, si prevede che queste tecniche giocheranno un ruolo ancora più significativo.