Intelligenza artificiale e formazione ECM: lavori in corso con AI-CHECK
Il progetto AI-CHECK è arrivato al secondo step. Abbiamo chiesto a ChatGPT di elaborare i contenuti di un corso ECM sull’acne, li abbiamo fatti valutare da un gruppo di esperti e confrontati con le linee guida NICE sul trattamento della malattia. Sono emerse alcune criticità: il principale punto debole è risultato la scarsa capacità di trattare le incertezze e le controversie. Quando c’è di mezzo l’AI, c’è bisogno di un controllo molto rigoroso dei contenuti medici e resta essenziale la supervisione di esperti.

Ne abbiamo già parlato su questo sito: il progetto di ricerca di Zadig, AI-CHECK (Artificial Intelligence for CME Health E-learning Contens and Knowledge), al momento unico nel suo genere, sta valutando le potenzialità e i limiti dell’intelligenza artificiale (AI) nell’elaborazione di materiali per i corsi di formazione ECM, con la finalità di stabilire indicazioni e buone pratiche nel suo utilizzo.
ChatGPT sotto esame
Nella seconda tappa dello studio AI-CHECK, i cui risultati sono stati pubblicati su Dermatology Reports, ChatGPT è stato interrogato, seguendo una rigorosa metodologia, sulla gestione dell’acne, con l’obiettivo di trasformare le risposte fornite in un corso ECM per i medici di medicina generale.
L’acne è stata scelta come argomento perché si tratta di una condizione comune (riguarda il 9,4% della popolazione mondiale) e perché i protocolli di trattamento non sono cambiati significativamente negli ultimi anni. In questo modo si riduceva il rischio che le perfomance di ChatGPT potessero risentire di un mancato allineamento tra le fonti cui attinge e quelle della letteratura scientifica più recente.
Proprio come uno studente che deve mostrare al suo professore di essere preparato, ChatGPT è stato sottoposto a 23 quesiti sull’acne, scelti da un dermatologo esperto in modo da fornire informazioni esaustive sulla gestione di questa condizione. I quesiti rivolti a ChatGPT (prompt) sono stati strutturati in modo da avere una premessa comune, nella quale venivano date le indicazioni su destinatari e caratteristiche del linguaggio e del tono da usare:
“Dobbiamo realizzare un corso di formazione a distanza evidence based per l’educazione continua in medicina sull’acne rivolto ai medici di medicina generale. Devi fornirci informazioni di alto livello scientifico, in un linguaggio professionale adatto ai medici. Evita frasi generiche e scritte per un pubblico non esperto. Fornisci in 4.000 battute…”
Seguiva quindi la domanda sull’argomento specifico.
Inoltre è stato chiesto a ChatGPT di fornire tre voci bibliografiche aggiornate a sostegno delle sue risposte.
La ripetibilità delle prestazioni di ChatGPT è stata messa alla prova riproponendo per tre volte sia il questionario sia la richiesta di voci bibliografiche.
Le risposte di ChatGPT sono state valutate indipendentemente da cinque specialisti in dermatologia per cinque aspetti: qualità, leggibilità, accuratezza, completezza e coerenza con le linee guida del National Institute for Health and Care Excellence (NICE), utilizzando una scala Likert a 5 punti. Complessivamente, le risposte di ChatGPT hanno ricevuto una valutazione positiva (buona o molto buona) per la qualità nell’87,8% dei casi; per leggibilità nel 94,8%; per l’accuratezza nel 75,7%; per la completezza nell’85,2%; per la coerenza con le linee guida nel 76,8%.
Non ci si deve fermare ai voti, nel complesso alti, perché non dicono nulla su alcune clamorose lacune. Per esempio, ChatGPT non ha fornito risposte accurate sugli effetti indesiderati cutanei legati all’impiego dell’isotretinoina e non ha citato tra le fonti rilevanti le linee guida europee per il trattamento dell’acne, ma solo quelle statunitensi per quanto fossero entrambi state pubblicate nello stesso anno di quelle statunitensi (2016).
La bibliografia è stata analizzata secondo tre criteri: pertinenza, rilevanza e aggiornamento. Le indicazioni bibliografiche hanno ottenuto una valutazione positiva nell’82,7% dei casi, pur essendo spesso non aggiornate. Non sono mancate poi allucinazioni, tutte relative alla citazione di riferimenti con errori nella citazione di autori, titolo, rivista, anno di pubblicazione, numeri o pagine o una combinazione di questi.
Il verdetto: “Potrebbe fare di più”
Nel complesso, questa sperimentazione in ambito dermatologico suggerisce che ChatGPT è uno strumento al momento solo potenzialmente utile per la formazione continua in medicina, ma che per essere affidabile deve ancora migliorare. Le risposte fornite sono chiare e comprensibili, ma a volte lacunose o imprecise.
In particolare abbiamo potuto notare che ChatGPT entra in crisi su aspetti che la comunità scientifica affronta come incertezze e controversie, con l’obiettivo di risolverli con il progredire delle conoscenze. ChatGPT in casi di questo tipo mostra una tendenza a dare sempre una risposta, anche sbagliando, piuttosto che riconoscersi incapace di trovarne una. Un limite che potrebbe portare a diffondere informazioni sbagliate.
Per ora resta quindi essenziale il controllo umano per identificare incompletezze e incoerenze. Ancora una volta, di fronte all’ingresso dell’intelligenza artificiale nella pratica medica, bisogna concludere che questa realtà non va negata né demonizzata; occorre piuttosto conoscerla e comprenderla, per sfruttarne le potenzialità e adottare un atteggiamento utilmente critico.
Ora si affronta il giudizio agli utenti
Dal 7 maggio e fino al 7 settembre 2025 sarà disponibile sulla piattaforma Saepe (www.saepe.it) il corso ECM gratuito “L’acne al tempo di ChatGPT”. I medici che lo sceglieranno troveranno un dossier che contiene la serie di domande e risposte frutto dell’interrogazione a ChatGPT, revisionata da uno dei massimi esperti italiani e internazionali di acne, Vincenzo Bettoli, che è anche responsabile scientifico del corso. Le correzioni e le modifiche (inserimenti e tagli) sono stati lasciati in evidenza, in modo che i partecipanti possano notarle e giudicare le prestazioni dell’AI. Anche i due casi clinici utilizzati per l’esercitazione pratica e il questionario di valutazione ECM che fanno parte del corso sono stati abbozzati da ChatGPT e successivamente rivisti, corretti e approvati dal responsabile scientifico.
A chi parteciperà al corso verrà chiesto di rispondere ad alcune domande, prima e dopo averlo seguito, che indagano da una parte l’atteggiamento complessivo rispetto all’uso dell’intelligenza artificiale in medicina, dall’altra il parere e le impressioni sul corso stesso.
Con la raccolta e l’analisi dei dati relativi all’erogazione del corso ECM si completerà la terza e ultima tappa di AI-CHECK.