ChatGPT può essere uno strumento affidabile per l’educazione dei pazienti?
La ricerca di informazioni sulla salute da parte dei pazienti attraverso siti web, social media e piattaforme video è un aspetto importante da considerare per l’impostazione di strategie di educazione sanitaria; parallelamente l’IA conosce un crescente numero di applicazioni anche nell’ambito della medicina, e ChatGPT, con oltre 1,5 milioni di visite mensili, è spesso utilizzata anche come fonte di informazioni mediche specialistiche.
Uno studio collaborativo – al quale hanno partecipato specialisti di centri ospedalieri finlandesi, canadesi, colombiani e italiani – ha valutato accuratezza e qualità delle informazioni generate da ChatGPT in merito ai sintomi del tratto urinario inferiore, potenzialmente suggestivi della presenza di ipertrofia prostatica benigna (IPB). Tali risposte sono poi state confrontate con quelle riportate sulle piattaforme di due importanti società scientifiche, la European Association of Urology (EAU) e l’American Urological Association (AUA). Il lavoro è stato recentemente pubblicato sulla rivista Prostate cancer and prostatic disease.
I ricercatori hanno esaminato i siti di AUA ed EAU per identificare gli argomenti di maggior interesse relativi alla patologia, e quindi stilare una serie di 88 quesiti da sottoporre a ChatGPT; gli ambiti indagati hanno riguardato la gestione della IPB (63 domande), gli interventi chirurgici convenzionali (27 domande), le terapie chirurgiche minimamente invasive (21 domande) e la farmacoterapia (15 domande).
Le risposte fornite da ChatGPT sono state confrontate con i contenuti dei siti scientifici; due esaminatori hanno indipendentemente revisionato e classificato le risposte fornite dall’IA in negative, false negative, positive e false positive, in base alla corrispondenza con le informazioni, relative allo stesso argomento, contenute nei siti. Le discrepanze tra i due revisori sono state risolte attraverso un consulto con uno specialista esperto.
IA genera risposte sovrapponibili a quelle degli esperti
Attraverso indicatori di misura specifici, sono state quindi valutate accuratezza, affidabilità e qualità generale delle risposte fornite da ChatGPT. La qualità globale delle risposte è stata valutata per mezzo di una scala a 5 punti (1=falso o fuorviante; 5=rilevante e estremamente accurato). Complessivamente, le risposte generate dall’intelligenza artificiale sono risultate più ampie ed estese rispetto a quelle delle altre fonti considerate. In dettaglio, le risposte di ChatGPT contenevano oltre 22.000 parole, per un totale di 1.430 frasi. Il sito di EAU conteneva 4.914 parole e 200 frasi, mentre nella guida per pazienti redatta da AUA sono state contate 3.472 parole e 238 frasi.
Gli Autori concludono affermando che ChatGPT ha fornito risposte di alta qualità, la cui lunghezza era tuttavia spesso considerata eccessiva. L’accuratezza delle risposte fornite è stata ritenuta variabile a seconda dell’argomento: eccellente per quanto riguarda i concetti relativi alla IPB, e di livello inferiore, invece, con riferimento al tema delle terapie chirurgiche minimamente invasive.
Gli esaminatori non hanno rilevato differenze statisticamente significative tra i punteggi che hanno assegnato alla qualità complessiva delle risposte.
L’elevato livello di accordo tra gli esaminatori sulla qualità delle risposte, sottolinea comunque che il processo di valutazione può considerarsi affidabile. Data la continua evoluzione dell’intelligenza artificiale, questa appare uno strumento promettente per accrescere il grado di educazione dei pazienti, ferma restando la necessità di successive valutazioni al fine di massimizzare l’utilità dell’IA nei contesti clinici.