Contatti
Opinioni

Come migliorare l'audit fiscale

, di Marco Battaglini - professore di Political economics, Universita' Bocconi
Seguendo l'approccio algoritmico dei ricercatori Bocconi e utilizzando i dati dell'Agenzia delle entrate italiane aumenta l'evasione fiscale rilevata fino al 38%. E questo e' solo un esempio di quanto l'interazione tra machine learning ed economia sia promettente

Le autorità fiscali raccolgono abitualmente enormi serie di dati sui contribuenti e dovrebbero utilizzarli in modo efficiente per effettuare le verifiche fiscali. Esistono margini per migliorare l'efficienza delle verifiche fiscali? Negli Stati Uniti e in altri Paesi i giudici valutano centinaia di migliaia di imputati prima dei processi per decidere se metterli in carcere o rilasciarli. Queste decisioni sono spesso lasciate alla discrezione dei giudici locali. L'apprendimento automatico (ML) può aiutarli a mantenere criteri coerenti e a evitare errori e pregiudizi?

Si può essere tentati di vedere i problemi di ML solo come sfide ingegneristiche per gli scienziati informatici, e ovviamente non dovremmo sottovalutare le difficoltà associate alla progettazione di algoritmi efficienti. Ma in molte applicazioni, la progettazione tecnica è l'ultimo dei problemi. Le vere complicazioni stanno nell'interpretare i risultati e nel tradurli in raccomandazioni politiche adeguate.

Consideriamo il caso di un'autorità fiscale che voglia progettare un piano di audit. Per essere efficace, il piano deve prevedere l'identità dei probabili evasori fiscali, un compito per il quale gli algoritmi di ML sono ideali. In breve, un algoritmo utilizzerebbe i dati storici per selezionare le variabili che meglio predicono l'evasione e combinarle in un punteggio che potrebbe essere utilizzato per la scelta. Se questo è ciò che fa l'autorità, tuttavia, abbiamo un grosso problema. Questa procedura utilizzerebbe solo i risultati delle pratiche che sono state selezionate endogenamente per il trattamento da parte dell'autorità nei periodi precedenti. Qualsiasi potenziale distorsione nel processo di selezione verrebbe ereditata dai dati. Se non possiamo controllare tutte le variabili utilizzate per guidare la selezione, il risultato potrebbe essere una decisione distorta, anche (e soprattutto) se l'algoritmo è efficiente. Per esempio, immaginiamo che l'autorità fiscale selezioni i controlli basandosi anche su variabili non osservate dall'algoritmo che sono buoni indicatori di conformità (forse variabili che non sono memorizzate nei set di dati ufficiali). Se ignoriamo questi marcatori, l'algoritmo potrebbe consigliare di sostituire i file sottoposti a revisione con file non sottoposti a revisione associati al marcatore non osservato. Questo porterebbe a una sovrastima dei possibili miglioramenti generati dal metodo ML. Parte del problema è che osserviamo gli esiti delle verifiche (selezionate endogenamente), ma non osserviamo gli esiti delle pratiche fiscali che non sono state sottoposte a verifica.

Cosa si può fare per risolvere questi problemi? C'è una soluzione apparentemente semplice: non utilizzare i dati storici per addestrare l'algoritmo; utilizzare invece dati accuratamente randomizzati, come negli studi randomizzati per i test sui farmaci. Se questo fosse possibile, saremmo sicuri che i dati di addestramento non presentano pregiudizi e le previsioni sarebbero efficaci. Ma questa soluzione è spesso impraticabile e non viene generalmente adottata.

In un recente lavoro, abbiamo proposto una metodologia per correggere i potenziali bias nella progettazione dei controlli fiscali. Sfruttiamo due caratteristiche degli insiemi di dati generati dalle autorità fiscali: in primo luogo, solo una minima parte dei file viene sottoposta a verifica, in genere a una sola cifra; in secondo luogo, i file possono essere controllati per un massimo di cinque anni, quindi ci sono molti file non controllati per i quali possiamo valutare il vero potenziale, poiché alla fine vengono controllati negli anni successivi. Si tratta di file che vengono involontariamente trascurati, ma che poi vengono selezionati casualmente per gli audit in una fase successiva. Semplificando un po' il nostro approccio, possiamo usarli come controfattuali per valutare se possiamo migliorare l'audit usando il metodo ML. In particolare, possiamo usare il metodo ML per selezionare i file storicamente sottoposti a audit con un basso potenziale e sostituirli con file con un buon potenziale, limitando il pool di sostituzione ai file per i quali alla fine vediamo il risultato. Si tratta di una politica conservativa, ma probabilmente immune dal problema che il risultato del controfattuale non è osservato e può essere sovrastimato. Utilizzando i dati dell'Agenzia delle Entrate italiana, questa analisi suggerisce che ci sono effettivamente grandi miglioramenti non sfruttati: la sostituzione del 10% di controlli meno produttivi con un numero uguale di contribuenti selezionati dal nostro algoritmo addestrato aumenta l'evasione fiscale rilevata fino al 38%.

Gli economisti hanno iniziato solo di recente a riflettere in modo sistematico su questi temi, che fondono la progettazione di ML con questioni più tipiche della ricerca economica, come l'identificazione causale e la progettazione e valutazione di politiche ottimali. I problemi presentano compromessi difficili e talvolta irrisolvibili; le soluzioni, come quella descritta sopra, possono rispondere solo parzialmente alle preoccupazioni. Ciononostante, si tratta di argomenti di ricerca promettenti, perché anche miglioramenti marginali possono essere determinanti e l'economia ha molto da contribuire.