medicine-2994788_640

In occasione del SAS Forum 2018, che si è tenuto a Milano in aprile, Lombardia informatica ha presentato le nuove sfide che sta affrontando nel settore della sanità digitale

Lombardia informatica è una digital company della Regione Lombardia e ne attua l’agenda digitale. Nata nel 1981, conta 470 dipendenti e 190 milioni di euro di fatturato.  In questi anni ha sviluppato progetti per la digitalizzazione del trattamento dei dati in ambito sanitario, prima con la smart card del SSN, ora diffusa in tutta Italia, poi con la cartella sanitaria digitale, solo per citare due interventi di grande portata.

A parlare a SAS è Giuseppe Preziosi, responsabile del centro di competenza data warehouse e business intelligence. Luca Merlino è invece a capo del progetto e ne detiene la direzione scientifica.
La sfida che attualmente stanno affrontando è quella di applicare nell’healthcare il machine learning, termine coniato nel 1959 dallo scienziato americano, pioniere nel campo dell’intelligenza artificiale, Arthur Lee Samuel, che consente ai computer di imparare dall’esperienza.

Uno degli errori più comuni nell’intelligenza artificiale è però quello di arrivare alle conclusioni un po’ troppo presto. Inoltre, se il dato non è corretto o i dati non sono buoni, la macchina può generare degli errori. È necessaria dunque, in premessa, una rigorosa cultura del dato.

Il SSN lombardo ha numeri che lo rendono paragonabile a Stati come il Belgio o l’Irlanda: 160 mila professionisti socio-sanitari di cui 30 mila specialisti, 8000 medici di medicina generale, 2600 farmacie, più di 10 milioni di residenti. I malati cronici sono 3,2 milioni (30% popolazione). Questo 30% di malati cronici spende il 70% della spesa complessiva che risulta essere il 16% del fondo sanitario nazionale. Si parla dunque di un volume di affari di miliardi di euro.

Il patrimonio informativo del data warehouse di Regione Lombardia è stato costruito nel tempo da parte di Lombardia Informatica e sicuramente, oggi, la crescente disponibilità di tecniche avanzate di intelligenza artificiale e di machine learning, oltre che di logiche computazionali sempre più complesse a articolate, consente di valorizzare il patrimonio informativo posseduto.

In Regione Lombardia il data warehouse è infatti un asset fondamentale perché custodisce i dati a 360 gradi dei cittadini lombardi, relativi agli ultimi 20 anni. La classificazione e stratificazione, ossia la divisione in sottogruppi con caratteristiche relativamente omogenee, della popolazione è basata su algoritmi derivati dalla Banca Dati Assistito, utilizzando un modello che si basa sulla rilevazione dei comportamenti degli assistiti: eventi di ricovero, erogazione di farmaci, prestazioni specialistiche e ambulatoriali o combinazioni delle precedenti.

Questa classificazione ha però una caratteristica: è molto descrittiva e poco predittiva. Gli sforzi erano indirizzati alla lettura dei dati di eventi già avvenuti: analizzando cosa avevano utilizzato o consumato i cittadini, attraverso complessi algoritmi venivano stilate delle classifiche delle patologie in base a un maggiore o minore consumo di risorse.

E’ stata allora avviata una sperimentazione su un territorio limitato, che comprende il 20% dell’intera regione quindi circa due milioni di cittadini. Gli obiettivi erano quindi quelli di una gestione proattiva e anticipatoria dei bisogni del paziente e una previsione delle risorse necessarie, ex ante… Questo permetterebbe alla Regione non tanto di prevedere chi sarà l’individuo che svilupperà una determinata patologia cronica, ma quale sarà la spesa indotta in generale dalla diffusione di una data patologia.
Per la sperimentazione e per testare il modello individuato, sono stati utilizzati dati di una serie storica di tre anni, per poter verificare la previsione data dalla macchina, rispetto a quanto è avvenuto nella realtà.

Nelle sperimentazioni che si basano sull’intelligenza artificiale e sul machine learning è importante fare alla macchina la “domanda giusta”. È quindi necessario avere un perimetro preciso della sperimentazione. Si è associato a ogni individuo sano la possibilità di sviluppare una determinata patologia cronica: in particolare, sono state analizzate le patologie cardiache.
In questo caso come traccianti delle patologie croniche sono stati utilizzati lo scompenso cardiaco, la miocardiopatia ischemica e l’ipertensione arteriosa. Queste in particolare risultano essere quelle che assorbono più risorse in media rispetto alle altre patologie croniche del cuore.
I dati utilizzati sono quelli di base: anagrafici, ambulatoriali, farmaceutici, esenzioni e ricoveri. Il modello applicato lavora in funzione del target che voglio individuare, in questo caso stimare quante persone sane svilupperanno una patologia cardiaca cronica. La macchina “impara” per tre anni:  nel primo si colloca  la fase di training dell’algoritmo, nel secondo il target mentre durante il terzo anno si applicano le previsioni.

Quindi viene fatto un confronto tra quelli che sono i dati stimati nella previsione e quelli che sono i dati reali.
Sul campione di due milioni di persone i flussi di prestazioni hanno originato circa 30 milioni di record, dai quali sono stati tratti 153 nuovi indicatori, variabili indipendenti.
È stato sfruttato il SAS Visual Data Mining and Machine Learning,  che ha permesso di elaborare i dati con grande velocità.
L’algoritmo prende in considerazione quali sono le variabili che il sistema valuta più importanti per spiegare il fenomeno in oggetto. Tra le 13 variabili indipendenti più importanti, in particolare il sesso e la fascia di età risultano fondamentali anche per approfondire correlazioni nascoste nei dati. Tra maschi e femmine oltre i 53 anni le variabili predominati sono sempre le stesse, ma tra le donne con più di 60 anni è importante anche il distretto sanitario di residenza. Questo per dire che dall’analisi possono emergere anche informazioni non scontate.

L’accuratezza del sistema è stata molto alta. Sono infatti stati stimati 25.065 casi contro i 25.055 reali.
I prossimi passi convergono dunque verso un utilizzo degli analytics, sfruttando modelli predittivi biennali.

Lombardia Informatica sta inoltre utilizzando il machine learning per capire cosa succederà, riguardo a una data patologia cronica in termini economici, per la sostenibilità della spesa sanitaria.
Le prospettive aperte da questo tipo di sperimentazione sono davvero ampie e riguardano sia gli aspetti clinici, che la prevenzione, che un uso più efficace delle risorse economiche disponibili.


CONTATTI

 

Lombardia Informatica

 

 

In this article