Sanità e dati sintetici: innovazione sicura o rischio per la privacy?

I dati sintetici aprono scenari inediti per la ricerca e la cura, offrendo strumenti per innovare senza esporre i pazienti a rischi diretti. Ma non mancano i nodi da sciogliere: quali tutele garantire e come applicare il GDPR? A TrendSanità ne parla Guido Scorza

I dati sintetici rappresentano una delle più promettenti innovazioni nella ricerca e nella pratica sanitaria. Sono informazioni generate artificialmente, spesso tramite modelli statistici o di intelligenza artificiale, che riproducono fedelmente le caratteristiche dei dati reali senza tuttavia corrispondere a un paziente specifico. L’obiettivo è duplice: da un lato, permettere lo sviluppo di algoritmi predittivi e strumenti di supporto alla diagnosi, dall’altro ridurre il rischio di violazioni della privacy. Nonostante il potenziale, il tema solleva questioni normative soprattutto in relazione al GDPR, all’AI Act e allo European Health Data Space. Su TrendSanità ne discutiamo con Guido Scorza, avvocato e componente del Garante per la Protezione dei Dati Personali.

Partiamo dalle basi: come si collocano i dati sintetici rispetto alla normativa europea e italiana in materia di privacy?

«Non c’è una distanza significativa tra quadro nazionale ed europeo: il riferimento centrale resta il GDPR. L’AI Act e lo European Health Data Space offrono cornici di contesto, ma la disciplina applicabile è sempre quella sulla protezione dei dati personali. Occorre distinguere due piani: la generazione dei dati sintetici e il loro trattamento. Se parto da dati reali per generare dati sintetici, sto già compiendo un trattamento e quindi devo avere una base giuridica, garantire trasparenza attraverso un’informativa e rispettare tutte le cautele del GDPR».

I dati sintetici possono accelerare ricerca e innovazione sanitaria in sicurezza

In quali casi un dato sintetico può ancora essere considerato un dato personale?

«Dipende dal livello di “impoverimento” delle caratteristiche identificative. Un processo di sintesi ben riuscito porta a un dato anonimo, quindi escluso dal GDPR. Tuttavia, se anche in un dataset impoverito permangono elementi che consentono, direttamente o indirettamente, di risalire a un individuo, quel dato rimane personale e soggetto a GDPR. Questo accade, ad esempio, con dataset ridotti o riferiti a patologie rare, dove il contesto rende possibile riconoscere i soggetti coinvolti. In questi casi il dato sintetico è soggetto a tutte le regole della privacy».

Alcuni parlano di dati pseudonimizzati. È possibile che un dato sintetico torni a essere riconducibile a un dato reale?

«Questo è proprio il cuore del problema. Se il processo di sintesi non è completamente efficace, il dato può rimanere pseudonimo, cioè ancora legato, almeno potenzialmente, all’identità dell’interessato. La Corte di Giustizia si è recentemente pronunciata su questo tema (sentenza della Corte Europea sul caso Deloitte), chiarendo che la qualificazione tra dato anonimo e dato personale va valutata caso per caso. Non esistono scorciatoie: occorre analizzare concretamente l’efficacia del processo di sintesi e la possibilità di reidentificazione».

Non tutti i dati sintetici sono automaticamente esclusi dalla normativa privacy

Quali opportunità intravede nell’uso dei dati sintetici in sanità?

«Le opportunità sono rilevanti. Innanzitutto, consentono di valorizzare il patrimonio informativo sanitario riducendo i rischi per la privacy. Se la sintesi è robusta e porta a dati realmente anonimi, otteniamo un win-win: la ricerca e la cura possono progredire senza rinunciare alla tutela dei diritti fondamentali. Inoltre, i dati sintetici permettono di correggere i bias. Immaginiamo un dataset con 90 uomini e 10 donne: i modelli di intelligenza artificiale addestrati su quei dati avrebbero un forte squilibrio di genere. Con la sintesi, possiamo riequilibrare il campione, generando ad esempio un dataset con il 50% di uomini e il 50% di donne. È come costruire “gemelli digitali” dei pazienti, che riproducono le caratteristiche cliniche senza corrispondere a individui reali. Questo approccio è cruciale per ridurre il rischio che gli algoritmi sanitari si basino su dati distorti e producano decisioni discriminatorie».

La tecnologia aiuta a riequilibrare dataset sanitari e correggere distorsioni

E sul fronte dei rischi?

«Il primo rischio è un fraintendimento concettuale: molti pensano che, per il solo fatto di chiamarsi “sintetici”, questi dati siano automaticamente fuori dal perimetro del GDPR. In realtà, se la sintesi non è completa, restano dati personali a tutti gli effetti. Il secondo rischio è operativo: considerare la generazione di dati sintetici come qualcosa che non costituisce trattamento. Al contrario, si tratta di un’operazione di trattamento a pieno titolo.
Questo ha conseguenze pratiche: spesso, al momento della raccolta dei dati sanitari reali, i titolari non hanno informato i pazienti che i loro dati sarebbero stati usati anche per generare dati sintetici. Mancano informative chiare e consensi specifici. Non possiamo ignorare questa lacuna solo perché l’obiettivo finale non è trattare direttamente i dati reali».

Se la sintesi non è efficace, i dati restano personali e sensibili

C’è la possibilità che l’Italia introduca una regolamentazione specifica sul consenso per i dati sintetici?

«È possibile, ma credo che la questione vada inquadrata in termini più ampi. Se il processo di sintesi porta davvero a dati anonimi, il consenso non serve. In caso contrario, possiamo già oggi basarci su altre basi giuridiche, come l’interesse pubblico, che il legislatore potrebbe rafforzare.
Si tratta di una scelta politica: garantire l’uso dei dati sanitari per finalità di ricerca e cura anche senza consenso, a condizione che vi siano adeguate misure di trasparenza e di tutela. In questo scenario, il ruolo del Garante è quello di vigilare affinché la riduzione del consenso non comporti un indebolimento della protezione per l’interessato».

Guardando al futuro, quale auspicio per i dati sintetici in sanità?

«Che possano diventare uno strumento davvero utile a tutti: alla ricerca, alla sanità pubblica e alla tutela dei cittadini. Se ben progettati e regolamentati, i dati sintetici possono offrire un equilibrio raro: garantire innovazione tecnologica e, al tempo stesso, rafforzare la protezione dei diritti fondamentali. In bocca al lupo ai dati sintetici!».

Può interessarti

Silvia Pogliaghi
Giornalista scientifica, esperta di ICT in Sanità, socia UNAMSI (Unione Nazionale Medico Scientifica di Informazione)