Contatti
Opinioni

Cosi' ripulisco i dati ed elimino l'incertezza

, di Botond Szabo - professore associato di Statistica
I piu' moderni metodi di apprendimento automatico utilizzano scorciatoie computazionali e modelli semplificati che pero' necessitano di una profonda comprensione matematica per eliminare il rumore di fondo. E qui che vengono in aiuto i metodi bayesiani. Stacked Penalized Logistic Regression e' il risultato di un progetto applicato che permette la diagnosi precoce della malattia di Alzheimer

L'apprendimento automatico e statistico è il cuore dell'intelligenza artificiale, il cui obiettivo è estrarre la conoscenza dai dati e imparare da essi. Le applicazioni moderne richiedono modelli complessi e i dati del mondo reale disponibili non sono mai perfettamente puliti o accurati, spesso contengono errori di misura e di altro tipo che rendono il problema ancora più difficile. La statistica è la scienza che analizza e interpreta questi dati rumorosi e imperfetti e svolge un ruolo di primo piano in tutti i moderni sviluppi incentrati sui dati.
In particolare, negli ultimi anni la quantità di informazioni disponibili è aumentata notevolmente e i modelli che descrivono i fenomeni del mondo reale stanno diventando sempre più complessi. Ciò introduce nuove sfide per gli scienziati dei dati, poiché nonostante la crescente potenza dei computer, la complessità computazionale è diventata eccessiva, rendendo impraticabile o addirittura impossibile eseguirli in un tempo ragionevole (o con requisiti di memoria). Pertanto, sono stati sviluppati nuovi e moderni metodi statistici e di apprendimento automatico per accelerare i calcoli utilizzando modelli semplificati e scorciatoie computazionali. Tuttavia, questi metodi sono spesso utilizzati come procedure a scatola chiusa senza una rigorosa comprensione matematica. Ciò può portare a risposte fuorvianti ed errate senza che ce ne rendiamo conto. Un esempio particolare sono le reti neurali, che rappresentano lo stato dell'arte della classificazione delle immagini con applicazioni che vanno dall'imaging medico alle auto a guida autonoma. Tuttavia, è stato dimostrato che piccole modifiche delle immagini in ingresso (che non possono essere rilevate nemmeno da occhi umani) o posizioni insolite degli oggetti possono dare luogo a classificazioni del tutto imprecise che portano a diagnosi errate o al rilevamento di oggetti non corretti.

Pertanto, è di grande importanza studiare le loro proprietà teoriche e ricavare garanzie ma anche limitazioni per questi moderni metodi di apprendimento. Un aspetto particolarmente importante è capire quanto si possa fare affidamento sui risultati ottenuti. In termini più formali, è essenziale valutare correttamente l'incertezza della procedura, che si basa su dati rumorosi del mondo reale e quindi non può mai essere perfetta. Un modo efficace per ottenere una quantificazione dell'incertezza è l'utilizzo di metodi bayesiani. La statistica bayesiana fornisce un modo naturale di incorporare le conoscenze degli esperti nel modello in modo probabilistico e quantifica automaticamente l'incertezza residua della procedura. La statistica bayesiana sta diventando sempre più popolare nell'apprendimento automatico e nell'intelligenza artificiale, per esempio nell'elaborazione del linguaggio naturale per la costruzione di chatbot spesso vengono utilizzati approcci bayesiani (classificatori naïve Bayes) per trovare la risposta più probabile.

La mia borsa di studio ERC Starting si concentra in particolare sulla comprensione teorica dei metodi statistici e di apprendimento automatico, compresa l'accuratezza dei metodi di calcolo parallelo e la perdita di informazioni subita considerando modelli semplificati invece di modelli accurati e complessi. In seguito, sulla base della comprensione teorica, mi propongo di proporre nuovi approcci che abbiano una maggiore accuratezza. Il mio lavoro si concentra principalmente sulla statistica matematica e sulla sua intersezione con l'apprendimento automatico, la teoria dell'informazione e l'analisi numerica. Occasionalmente sono coinvolto anche in progetti più applicati, che si basano sulle intuizioni teoriche della mia ricerca principale.

Lavorando a stretto contatto con gli scienziati dell'Istituto di Psicologia dell'Università di Leida, abbiamo sviluppato un metodo di apprendimento finalizzato all'individuazione della malattia di Alzheimer. Nella ricerca medica, spesso vengono raccolti e combinati diversi tipi di dati per fornire la diagnosi migliore. Per esempio, per la diagnosi precoce della malattia di Alzheimer si possono raccogliere dati di risonanza magnetica strutturale e funzionale, dati di questionari, dati EEG, dati genetici, dati metabolici, ecc. Questi dati sono sostanzialmente diversi sia per dimensioni che per qualità. Per ottenere una diagnosi precoce più accurata, è necessario individuare le caratteristiche più importanti in queste serie di dati e combinarle in modo ottimale. Inoltre, poiché questi strumenti diagnostici possono essere costosi e di capacità limitata, è importante selezionare quelli più rilevanti per ottenere un metodo diagnostico affidabile, accurato ed economico. Abbiamo sviluppato un approccio di apprendimento chiamato Stacked Penalized Logistic Regression (StaPLR), che seleziona gli strumenti diagnostici più rilevanti e le corrispondenti caratteristiche più rilevanti per prevedere l'insorgenza precoce della demenza. Questo metodo è stato applicato con successo su dati clinici contenenti pazienti con malattia di Alzheimer e un gruppo di controllo.