ChatGPT, la scienza diventa un banco di prova e rivela quali sono i suoi limiti più grandi
Uno studio accademico mette ChatGPT di fronte a un compito semplice solo in apparenza. I risultati
mostrano difficoltà nel distinguere il vero dal falso e una coerenza non sempre stabile.
18 Marzo 2026 - Biagio Petronaci
Uno studio condotto alla Washington State University ha scelto un terreno preciso per valutare
ChatGPT: la capacità di distinguere tra ipotesi confermate dalla ricerca e affermazioni prive di
riscontro nei dati. Il risultato è meno rassicurante di quanto si potrebbe immaginare.
Il metodo: stessa domanda, dieci volte
Il gruppo guidato da Mesut Cicek ha selezionato 719 ipotesi tratte da studi pubblicati dal 2021 su
riviste accademiche di ambito business. A ChatGPT è stato chiesto di esprimere un giudizio netto su
ciascuna: vero oppure falso. La forma della risposta non lasciava spazio a interpretazioni, ma il
contenuto richiedeva comunque una lettura attenta e una valutazione fondata su evidenze.
Per ogni ipotesi, la stessa domanda è stata ripetuta dieci volte senza alcuna variazione.
L’obiettivo era misurare il numero di risposte corrette e verificare la capacità del sistema di
mantenere una linea coerente a fronte dello stesso input.
Il test è stato condotto in due momenti distinti: nel 2024 con ChatGPT-3.5, nel 2025 con ChatGPT-5
mini. In entrambi i casi è stata utilizzata la versione gratuita dei modelli.
I numeri migliorano, ma la lettura cambia: l’evoluzione di ChatGPT
I risultati, considerati isolatamente, suggeriscono un progresso. Nel primo ciclo di test,
l’accuratezza si è fermata al 76,5%. Nel secondo è salita all’80%. Una differenza contenuta, ma
sufficiente a far pensare a un miglioramento.
La valutazione cambia quando si considera il contesto in cui quelle risposte sono state generate.
Trattandosi di domande binarie, una risposta casuale avrebbe comunque una probabilità del 50% di
risultare corretta. I ricercatori hanno quindi ricalibrato il dato per tener conto di questo
fattore. Il quadro che emerge è più prudente: la performance reale si colloca solo intorno al 60% al
di sopra del livello del caso.
Dove si inceppa ChatGPT?
Il punto più critico riguarda le ipotesi false: è qui che ChatGPT mostra le maggiori difficoltà. Nel
test, la capacità di riconoscere un’affermazione non supportata dalla ricerca si è fermata al 16,4%.
In altre parole, quando il compito richiedeva di negare, il sistema ha spesso finito per confermare.
Questo comportamento ha un peso rilevante. Si traduce in una tendenza a validare contenuti che
avrebbero dovuto essere respinti. In un contesto scientifico, questa asimmetria diventa un limite
concreto.
ChatGPT è coerente?
Accanto all’accuratezza, lo studio introduce un altro parametro decisivo: la coerenza. Ripetendo lo
stesso prompt dieci volte, ChatGPT ha mantenuto la stessa risposta nel 73% dei casi. Ciò significa
che, in una quota non trascurabile di situazioni, il giudizio è cambiato pur a fronte della stessa
domanda. In alcuni casi, la distribuzione delle risposte è risultata perfettamente bilanciata tra
vero e falso.
Il risultato del test
ChatGPT dimostra una forte capacità espressiva, ma non raggiunge lo stesso livello quando deve
affrontare compiti che richiedono un ragionamento strutturato. Secondo Cicek, questi sistemi non
comprendono il contenuto nel senso umano del termine: elaborano schemi e restituiscono formulazioni
convincenti.
Il linguaggio può essere fluido e la risposta plausibile, ma questo non implica che il processo
sottostante sia solido. Per questo motivo, i ricercatori invitano a mantenere un approccio prudente.
da
libero.it/tecnologia