Intelligenza artificiale e malattie rare: quando i dati scarseggiano, la tecnologia innova

Il termine “big data” è ormai associato indissolubilmente all’intelligenza artificiale in medicina. Ma cosa significa esattamente? Come ha chiarito il Prof. Diciotti, il concetto ha una duplice valenza: da un lato si riferisce al numero elevato di pazienti studiati (la numerosità del campione), dall’altro alla molteplicità di informazioni che possono essere raccolte su ciascun paziente, informazioni di natura diversa provenienti da discipline differenti come clinica, genetica, imaging e altre fonti.
Nel caso delle malattie rare, però, emerge un paradosso: l’applicazione dell’AI diventa particolarmente complessa proprio a causa della scarsità dei dati. È difficile, per definizione, ottenere veri “big data” quando si studiano patologie che colpiscono pochi pazienti, eppure questi dati sono essenziali per far funzionare efficacemente i modelli di intelligenza artificiale.
Per affrontare questa sfida, il Prof. Diciotti ha condiviso l’esperienza maturata all’interno di un network internazionale dedicato alle atassie spinocerebellari, una forma di malattia rara neurologica. Il network coinvolge centri di ricerca in Europa, Stati Uniti, Messico, Australia e altri paesi, e ha permesso di raccogliere dati su oltre 300 pazienti affetti da atassia di Friedreich e diverse centinaia di pazienti con altre atassie spinocerebellari, oltre a un numero comparabile di soggetti di controllo. Uno studio multicentrico di questa portata è essenziale per raggiungere numeri statisticamente significativi.
Prima sfida: la comparabilità dei dati tra centri diversi
Il primo problema concreto riguarda la comparabilità dei dati raccolti in centri diversi. Per comprendere la questione, il Prof. Diciotti ha utilizzato un esempio illuminante: “Pensiamo al peso corporeo: è un parametro clinico importante. Se voglio sapere quanto peso, uso una bilancia. Se voglio confrontare il peso dei pazienti tra i centri del network, posso stare tranquillo: ogni bilancia è tarata, azzerata prima della misurazione, quindi i dati sono comparabili”.
Ma cosa succede quando invece della bilancia si usa una risonanza magnetica? La risonanza non è uno strumento facile da tarare. Se in un centro si utilizza un macchinario Siemens e in un altro un apparecchio GE, i risultati possono variare significativamente. Non è ovviamente fattibile far viaggiare un soggetto da un centro all’altro per sottoporlo a risonanza magnetica in tutti i diversi macchinari disponibili.
È qui che intervengono i metodi statistici di armonizzazione post-acquisizione, tecniche che permettono di rendere confrontabili dati acquisiti con strumentazioni diverse. Tuttavia, questi metodi creano nuovi problemi quando si vuole utilizzare l’intelligenza artificiale, perché il processo di armonizzazione può interferire con le caratteristiche specifiche su cui i modelli di AI devono imparare.
Questo problema è stato affrontato dal gruppo di ricerca del Prof. Diciotti in uno studio recente pubblicato sulla rivista Scientific Data, basato su dati di 1.700 soggetti provenienti da 36 centri diversi. Lo studio ha esplorato metodologie per bilanciare l’esigenza di armonizzazione con la necessità di preservare le informazioni rilevanti per l’addestramento dei modelli di intelligenza artificiale.
Seconda sfida: la privacy e il federated learning
La seconda problematica riguarda la condivisione dei dati clinici tra centri diversi. La privacy può diventare un ostacolo significativo: alcuni centri non possono trasferire i dati dei pazienti fuori dalla propria sede per vincoli normativi, etici o di sicurezza.
La soluzione proposta è il federated learning (apprendimento federato), un approccio innovativo che rivoluziona il modo in cui i modelli di AI vengono addestrati in contesti distribuiti. Come ha spiegato il Prof. Diciotti, “in questo approccio, ogni centro tiene i propri dati in locale, addestra un modello AI sui propri pazienti e condivide solo il modello ‘addestrato’, cioè i pesi del modello, non i dati”.
Il meccanismo funziona attraverso un processo iterativo: i modelli addestrati localmente vengono aggregati in un modello comune, che viene poi ridistribuito a tutti i centri e ulteriormente raffinato. Questo metodo permette di costruire modelli di AI potenti senza mai spostare i dati sensibili dei pazienti dalle sedi originarie.
Per le malattie rare, questo approccio è particolarmente prezioso: consente di evitare la perdita di centri dal network a causa di vincoli sulla privacy, un problema che nelle patologie rare, dove ogni paziente conta, deve essere assolutamente evitato.
Terza frontiera: i dati sintetici
L’ultima innovazione presentata riguarda la generazione di dati sintetici, ovvero dati artificiali ma estremamente realistici. Anche utilizzando il federated learning, infatti, i dati disponibili possono non essere sufficienti per addestrare efficacemente i modelli di AI.
Il Prof. Diciotti ha mostrato un esempio visivo particolarmente efficace: due immagini di volti umani, una reale e una generata artificialmente da un sistema di AI. La capacità di distinguerle a occhio nudo è praticamente nulla, tanto sono realistiche le immagini sintetiche.
Lo stesso principio si applica alle immagini biomediche. Il gruppo di ricerca ha sviluppato modelli capaci di generare immagini di risonanza magnetica cerebrale fittizie ma indistinguibili da quelle reali. Questa tecnologia apre possibilità enormi: si possono creare grandi dataset per addestrare modelli di AI senza violare la privacy dei pazienti e con un elevato controllo sulla qualità e sulle caratteristiche dei dati generati.
I dati sintetici possono essere personalizzati per rappresentare scenari specifici, aumentare la variabilità del dataset, bilanciare classi sottorappresentate o simulare condizioni patologiche rare per le quali i dati reali sono estremamente scarsi. Questa tecnologia rappresenta una vera e propria rivoluzione per la ricerca sulle malattie rare.
Tre direzioni per il futuro della medicina di precisione
Come ha concluso il Prof. Diciotti, queste tre storie sono solo spunti, ma mostrano chiaramente le direzioni strategiche verso cui sta andando la ricerca applicata all’intelligenza artificiale in medicina:
Armonizzazione dei dati – Sviluppare metodi sempre più sofisticati per rendere confrontabili dati provenienti da strumentazioni e protocolli diversi, senza perdere le informazioni essenziali per l’AI.
Protezione della privacy con AI distribuita – Implementare su larga scala il federated learning e altre tecniche di apprendimento distribuito che permettano di costruire modelli potenti rispettando i vincoli normativi e proteggendo la privacy dei pazienti.
Creazione di dati sintetici – Perfezionare le tecnologie di generazione artificiale di dati biomedici per aumentare la disponibilità di dataset di addestramento, specialmente per patologie rare dove i dati reali sono scarsi.
AI e HEAL ITALIA: un’alleanza strategica
L’intervento del Prof. Diciotti ha evidenziato come l’intelligenza artificiale non sia solo uno strumento tecnologico, ma un elemento abilitante essenziale per la medicina di precisione nelle malattie rare. Le soluzioni presentate – armonizzazione dei dati, federated learning e dati sintetici – sono già disponibili e operative, non rappresentano visioni futuristiche ma strumenti concreti che possono essere implementati oggi.
Nel contesto del progetto HEAL ITALIA, queste tecnologie assumono un valore ancora maggiore. La rete nazionale di Centri di Medicina di Precisione distribuiti sul territorio può beneficiare enormemente del federated learning per collaborare pur mantenendo i dati localmente. La generazione di dati sintetici può amplificare la capacità di studio anche per le malattie ultra-rare con pochissimi pazienti diagnosticati. L’armonizzazione dei dati permette di integrare informazioni provenienti da centri diversi con tecnologie diverse, massimizzando il valore di ogni singolo dato raccolto.
Come ha sottolineato il Prof. Diciotti, questi strumenti “saranno fondamentali anche nel futuro prossimo per applicare con efficacia l’intelligenza artificiale alla medicina di precisione, soprattutto nel campo delle malattie rare”. Un futuro in cui la tecnologia non sostituisce ma potenzia la capacità umana di comprendere, diagnosticare e curare anche le patologie più rare e complesse, trasformando la scarsità di dati da ostacolo insormontabile a sfida tecnologica risolvibile.



