la corsa al vaccino

L’intelligenza artificiale italiana in campo per elaborare i dati del Covid-19

Il sistema di natural language processing della startup Indigo.ai con Centro Medico Santagostino partecipa allo sforzo di data mining per ricercatori

di Marco Trabucchi

AFP

3' di lettura

Dagli Stati Uniti una call to action per aiutare i ricercatori impegnati nello studio del Coronavirus: la startup Indigo.ai e il Centro Medico Santagostino rispondono con un sistema di intelligenza artificiale in grado di individuare le informazioni utili tra 195mila testi scientifici.
Nelle varie fasi che compongono una ricerca - identificazione del problema, pianificazione, formulazione delle ipotesi di ricerca, raccolta dati, analisi e interpretazione dei risultati - quella dell'analisi dei dati è forse la parte più dispendiosa in termini di tempo. Una pratica che a maggior ragione vale per la raccolta dati dei numerosi test sparsi per il mondo che si stanno compiendo per il vaccino Covid.
Un valido aiuto per snellire le “pratiche” della raccolta dati arriva dal sistema di intelligenza artificiale ideato dalla startup Indigo.ai - specializzata nella progettazione e costruzione di assistenti virtuali, tecnologie di linguaggio ed esperienze conversazionali – in collaborazione con il Centro Medico Santagostino.

Si chiama Record ed è un sistema di natural language processing in grado di individuare le informazioni utili tra 195mila testi scientifici e così in grado di abbattere il tempo necessario a trovare le informazioni sul Covid-19 per le migliaia di ricercatori che in questo momento se ne stanno occupando nel mondo.

Loading...

Meno tempo per trovare risposte, più tempo per avvicinarsi alle soluzioni, in particolare il vaccino.Lo spunto è arrivato dal bando “Cord-19 - Covid-19 Open Research Dataset Challenge” indetto dall'Allen Institute for AI in partnership con Chan Zuckerberg Initiative, Georgetown University's Center for Security and Emerging Technology, Microsoft Research, Ibm, National Library of Medicine - National Institutes of Health e in coordinamento con l'ufficio di Politiche di Scienza e Tecnologia della Casa Bianca al fine di sostenere la ricerca intorno al Coronavirus e aiutare a trovare un vaccino il prima possibile.

In particolare il bando è nato con l'intento di incoraggiare la creazione di sistemi di data mining che aiutino gli studiosi ad aggiornarsi in tempi rapidi sui temi specifici di interesse, senza dover leggere centinaia di pagine ogni giorno, all'interno degli oltre 195mila articoli scientifici sul Covid-19, Sars-CoV-2, e gli altri tipi di Coronavirus.

Un dataset in continuo aggiornamento perché si tratta di un tema nuovo, su cui quotidianamente si producono articoli, analisi, studi. Record è nato da una sinergia fruttuosa, in cui Indigo.ai ha sviluppato la tecnologia di intelligenza artificiale e il Centro Medico Santagostino ha supportato la parte di apprendimento dell'intelligenza artificiale mettendo a disposizione un team di esperti, per verificare che le informazioni scientifiche individuate dall'Ai fossero effettivamente corrette. Ad oggi, Record, dice la nota dell'iniziativa, sulle domande specifiche poste dagli esperti del Centro Medico Santagostino le risposte positive sono arrivate al 63%, sui quesiti estratti dalla challenge della Casa Bianca il tasso di risposte esatte si attesta intorno all'80%.

«La ricerca sul Covid-19 procede velocissima e di conseguenza il numero di paper e pubblicazioni aumenta esponenzialmente. Nel nostro piccolo, abbiamo sfruttato le nostre competenze in materia di Ai e natural language processing per dare il nostro contributo alla comunità medico-scientifica sul fronte Covid. Abbiamo attivato i nostri data scientist e creato un modello che, speriamo, possa accelerare il processo di ricerca di un vaccino e indirettamente salvare delle vite» ha commentato Gianluca Maruzzella, founder e Ceo di Indigo.ai.

Il motore di ricerca Record funziona in tre fasi: una volta ricevuta una domanda, attraverso alcune parole chiave specifiche, il sistema filtra i documenti che con ogni probabilità contengono la risposta; poi viene selezionato il sottoinsieme del documento con un contenuto semantico molto simile alla domanda posta, e infine attraverso un modello di question answering viene fornita una risposta per ciascuno dei documenti selezionati, insieme ad ulteriori informazioni come il titolo, gli autori, le citazioni e il giornale di pubblicazione con relativo impatto scientifico, per aiutare gli utenti a valutare la rilevanza del documento e l'attendibilità della risposta.

Una ricerca eseguita attraverso una vettorializzazione di tutti i paragrafi, utilizzando il modello di sentence embedding basato su Bert: una scrematura continua che porta alle risposte più precise possibili.Record, inoltre, è un modello di NLP replicabile, ovvero declinabile in altri contesti: riconvertibile per necessità aziendali o rimodulabile in caso di nuove emergenze – in quanto si tratta di un sistema capace di fornire a qualunque quesito le risposte specifiche contenute nei documenti catalogati come pertinenti per l'oggetto in questione.

Riproduzione riservata ©
Loading...

Brand connect

Loading...

Newsletter

Notizie e approfondimenti sugli avvenimenti politici, economici e finanziari.

Iscriviti