Si chiamano Fair Data e rappresentano una una grande opportunità per la ricerca nel campo delle malattie rare, ove i dati, sensibili, sparsi e distribuiti in differenti Paesi e istituzioni, sono raccolti in modo eterogeneo e presentano poca interoperabilità. Laddove vi sarebbe invece un’assoluta necessità di integrare i dati fra loro al fine di accelerare la ricerca e la diagnosi nelle malattie rare a beneficio dei pazienti.
A illustrare le potenzialità dei Fair Data è Claudio Carta del Centro Nazionale Malattie Rare dell’Istituto Superiore di Sanità (ISS) e Local Technical Coordinator di Elixir Italia in ISS. Elixir sta per European Life-science Infrastructure for biological Information: è l’infrastruttura paneuropea sui dati “Life-Sciences”, che supporta i dati Fair con le sue diverse community tra cui la Rare Disease Community e le sue piattaforme dedicate: Compute, Data, Interoperability, Tools, Training.
Dottor Carta, che cosa sono i Fair Data?
I Fair Data sono tutti quei dati che, seguendo i principi guida del Fair, che sta per Findable, Accessible, Interoperable and Reusable for Humans and Machines, sono rintracciabili, accessibili nel rispetto delle restrizioni di accesso dei dati stessi, interoperabili e riutilizzabili sia dagli uomini che dalle macchine, come algoritmi di intelligenze artificiali.
I quindici principi guida per i dati Fair si sono diffusi molto rapidamente tra le diverse comunità scientifiche e hanno ricevuto diverse approvazioni come, ad esempio, dalla European Research Infrastructure for life sciences data (Elixir), e dall’International Rare Diseases Research Consortium (Irdirc), che ha dato il marchio di “IRDiRC Recognized Resources” ai principi guida del Fair.
Fair non è uno standard e non corrisponde a nessuna tecnologia specifica. I principi in quanto tali non raccomandano alcuna attuazione particolare sono le comunità di utenti che dovranno decidere l’attuazione più appropriata per il loro dominio. I dati Fair non sono uguali ai dati Open: i dati possono infatti essere Fair ma non Open; inoltre i dati per essere Fair devono essere leggibili anche dalle macchine, non solo dagli uomini.
Perché e come possono essere utili nell’ambito delle malattie rare? Cosa si sta facendo in questo senso?
I dati Fair hanno trovato grande riscontro nella comunità delle malattie rare, ove i dati sono sensibili, sparsi e distribuiti in differenti Paesi e istituzioni e, oltre ad essere raccolti in modo eterogeneo, presentano poca interoperabilità.
Avere una diagnosi tempestiva di malattia rara è particolarmente difficile. Si stima che il ritardo medio della diagnosi sia di sette anni
Avere una diagnosi tempestiva di malattia rara è particolarmente difficile. Si stima dalle informazioni disponibili che il ritardo medio della diagnosi è di sette anni, con un’elevata variabilità a seconda dei paesi o regioni. Irdirc, che ha approvato i principi Fair, si è posto come vision per il 2027 di consentire a tutte le persone affette da una malattia rara di ricevere una diagnosi accurata, oltre che cure e terapie, ove disponibili, entro il primo anno in cui si è giunti all’attenzione del medico. Vi è quindi un’assoluta necessità di deframmentare i dati integrandoli tra loro al fine di accelerare la ricerca e la diagnosi nelle malattie rare a beneficio dei pazienti. È importante rispondere alle domande di ricerca in modo rapido e puntuale.
I dati Fair consentono di rispondere in modo rapido, efficiente, non ambiguo e nel rispetto delle restrizioni di accesso dei dati stessi alle domande di ricerca
Domande di ricerca che spesso, se non sempre, sono Cross Resource Questions, ossia domande la cui risposta, per essere evasa, richiede accesso a diverse risorse e questo richiede non poco tempo. In questo i dati Fair consentono di rispondere in modo rapido, efficiente, non ambiguo e nel rispetto delle restrizioni di accesso dei dati stessi alle domande di ricerca.
Si sta quindi lavorando all’interno e all’esterno della comunità di ricerca e sviluppo per promuovere i dati Fair, che richiedono un cambiamento nel modo di condividere e lavorare i dati stessi. Quando i dati non sono preparati per l’integrazione alla fonte, il ricercatore, il medico, deve fare un importante lavoro su di loro per l’integrazione e l’analisi degli stessi.
I dati vanno preparati per essere integrati e per essere letti dalle macchine fin dal momento della raccolta at the source. In merito ai dati Fair e alla Fairificazione degli stessi vi sono dei corsi e moduli che li illustrano e mostrano come fare, ad esempio, lo storico Bring Your Own Data (Byod) che si svolge presso l’Istituto Superiore di Sanità sin dal 2014. Byod si è evoluto negli anni ed è un evento annuale la cui struttura generale è una combinazione di hackathon e tutorial in cui i proprietari dei dati vengono formati per generare i loro primi dati Fair.
Ad avvalorare l’importanza dei dati Fair è anche l’attuale scenario in cui si osserva come, se da una parte vi è una difficoltà nel reperire e riutilizzare i dati più andiamo indietro nel tempo, dall’altra parte vi è una “onda” di nuovi dati che viene prodotta quotidianamente, grazie, ad esempio, ai dati di omica.
In concreto cosa è necessario per pianificare un progetto che includa i dati Fair e quali sono le caratteristiche che la struttura ospitante deve avere per tali dati?
In uno scenario ideale in cui vi è un progetto che prevede la generazione di dati questi dovrebbero essere generati Fair e non Fairificati in un secondo tempo.
Quando si fa la stesura di un progetto che prevede dati Fair bisogna includere la descrizione di specifiche figure necessarie per la Fairificazione ed il mantenimento dei dati Fair. Figure che, se non presenti nella struttura dell’Ente/Università/Istituzione, andranno reclutate dall’esterno con degli specifici bandi.
Bisognerà quindi allocare budget per il mantenimento dei dati Fair e dell’infrastruttura dedicata come ad esempio i Fair Data Point oltre che, come menzionato precedentemente, del budget per eventuali persone.
Quali ulteriori sviluppi si possono immaginare e auspicare per il futuro?
Un ecosistema Fair in cui i dati provenienti da diverse risorse potranno essere rapidamente trovati, interrogati ed analizzati dalle macchine, oltre che dall’uomo, in modo federato e nel rispetto delle restrizioni di accesso dei dati stessi.