LONDRA - Il fatto che i chatbot basati su intelligenza artificiale riescano a superare esami di medicina non significa che possano sostituire i medici nella pratica clinica.
È l’avvertimento lanciato da un nuovo studio dell’Università di Oxford, secondo cui questi strumenti possono offrire indicazioni errate e potenzialmente letali quando vengono usati da pazienti in carne e ossa.
La ricerca, pubblicata oggi sulla rivista Nature Medicine, giunge a un mese dall’annuncio di OpenAI sul lancio di ChatGPT Health, servizio che gestisce ogni giorno oltre 230 milioni di domande legate alla salute. Proprio questa diffusione su larga scala ha spinto i ricercatori a testare in modo sistematico l’affidabilità dei chatbot nel contesto reale.
Lo studio, condotto dall’Oxford Internet Institute e dall’Università di Oxford, ha coinvolto 1298 partecipanti in una prova randomizzata. A ciascuno è stato assegnato uno scenario medico, con condizioni che andavano dal raffreddore alla polmonite, dai calcoli biliari all’embolia polmonare. Una parte del campione ha utilizzato fonti tradizionali, come ricerche online, mentre l’altra si è affidata a tre modelli linguistici di grandi dimensioni: GPT-4o, Llama 3 di Meta e Command R+.
I risultati sono stati deludenti. Con l’aiuto dell’IA, solo il 34,5 per cento dei partecipanti è riuscito a identificare correttamente la propria condizione, mentre il 44,2 per cento ha individuato l’azione giusta da intraprendere, come chiamare un’ambulanza o restare a casa. In un caso emblematico, due persone che descrivevano i sintomi di un’emorragia subaracnoidea hanno ricevuto indicazioni opposte: una invitata a cercare aiuto immediato, l’altra rassicurata e spinta al riposo. In un altro scenario, sintomi riconducibili a calcoli biliari sono stati liquidati come semplice indigestione.
Secondo la dottoranda Rebecca Payne, una delle autrici, lo studio mette in luce i limiti strutturali di queste tecnologie. “Nonostante l’enorme entusiasmo, l’IA non è pronta a svolgere il ruolo di medico”, ha detto, avvertendo che diagnosi sbagliate e ritardi nell’accesso alle cure possono avere conseguenze gravi.
Curiosamente, quando i modelli sono stati messi alla prova senza l’intermediazione umana, le prestazioni sono migliorate: le diagnosi corrette sono salite al 94,7 per cento e l’indicazione della terapia appropriata al 56,3 per cento. Per il ricercatore Andrew Bean, questo suggerisce un problema di comunicazione tra persone e sistemi automatici. “Interagire con gli esseri umani resta una sfida anche per i modelli migliori”, ha spiegato.
La conclusione dello studio è prudente: l’intelligenza artificiale può essere uno strumento di sostegno, ma affidarle la gestione diretta dei pazienti resta, per ora, un rischio che la medicina non può permettersi.