Secondo uno studio pubblicato su arXiv, ChatGPT e Llama3.1-405B avrebbero superato il test di Turing. Ma è davvero così? LA risposta semplice è no, anche perché, contrariamente a quanto riferito dai ricercatori, quello eseguito non è il test di Turing e non ci vengono forniti dati a sufficienza per capire se effettivamente il test è stato superato o meno.

Per i più volenterosi, l’articolo è stato pubblicato da Cameron R.Jones e Benjamin K.Bergen, entrambi ricercatori al dipartimento di scienze cognitive dell’università di San Diego, e per chi volesse recuperare l’articolo integrale, vi lascio qui il link (è pubblico)
Visto che da circa 15 anni, periodicamente inizia a circolare la notizia che una IA ha superato il test di Turing, ma poi, andando a vedere, non è proprio così, e semplicemente qualcuno ha male interpretato alcuni dati, autoconvincendosi che l’IA di turno avrebbe potuto superarlo, senza però mai fornire alcun dato sul test, e senza spiegare chi, come, dove, quando, ecc ha eseguito il test, (tra l’altro fornendo dei punteggi e percentuale di successo che non hanno alcun senso), ho deciso di scrivere un articolo che aggiornerò periodicamente, in cui andrò a spiegare cos’è il test di Turing, come funziona, e perché quello che ci viene spacciato per “test di Turing” in realtà non è il test di Turing.
Alan Turing e il suo esperimento teorico
Alan Turing è stato un matematico britannico, da molti considerato uno dei padri dell’informatica modera, mosso da alcune idee radicali, molto all’avanguardia per il suo tempo, è grazie al suo genio, è riuscito negli anni 40, grazie ad una macchina e ad alcune intuizioni, a bucare i codici Nazisti e superare Enigma. Ma questa è un altra storia.
Ciò che importa è che, dopo la guerra, gran parte del lavoro di Turing e del team di Bletchley Park venne “insabbiato” e messo sottochiave almeno fino ai primi anni 2000, inoltre Turing, per via della sua omosessualità, che nell’Regno Unito dell’epoca era illegale, venne sottoposto a castrazione chimica, cosa che ebbe diversi effetti collaterali sulla sua salute e gli causò una forte depressione.
Negli anni 50 sostanzialmente Turing era un autentico eroe di guerra, completamente sconosciuto al popolo britannico, abbandonato dallo stato e per lo più perseguitato per il suo orientamento sessuale e le sue idee, e quando dico perseguitato, intendo dire che era tenuto sotto strettissima osservazione perché sostanzialmente era un civile in possesso di segreti militai, di grandissimo valore.
In questo contesto Turing, nel 1950, cinque anni dopo la fine della guerra e quattro anni prima che si togliesse la vita, pubblica un articolo sulla rivista Mind, intitolato “Computing Machinery and Intelligence” in cui esponeva un esperimento teorico chiamato “The imitation game” con cui cerca di capire quanto una macchina riesce ad imitare il pensiero.
Col tempo il gioco dell’imitazione, è stato ribattezzato in Turing Test/Test di Turing, e si è diffusa l’idea che tale test cercasse di rispondere alla domanda “le macchine possono pensare?” In realtà, basta aprire l’articolo e nel primo paragrafo scopriamo che Turing non si chiede se “le macchine possono pensare” ma propone una domanda più precisa e meno ambigua.

A questo punto Turing propone una nuova formulazione spiegando qual è l’obbiettivo del suo test. Si tratta in sostanza di un indagine statistica che prevede la ripetizione di un gioco di deduzione per 2*X volte, durante il primo ciclo di gioco ci saranno tre giocatori umani, durante il secondo ciclo invece, uno dei giocatori, con un ruolo ben preciso, sarà sostituito da una macchina.
Cerchiamo allora di capire come funziona il Test di Turing, e quando possiamo dire che una “macchina” ha superato il test di Turing, e soprattutto, se possiamo effettivamente dire che una macchina ha superato il test di Turing.
Come funziona il Test di Turing
Abbiamo tre giocatori, un uomo A, una donna B e un interrogatore C che può essere di entrambi i sessi. L’obbiettivo di C sarà quello di determinare chi tra i due è l’uomo e chi la donna, l’obbiettivo di A sarà quello di far sbagliare C mentre l’obbiettivo di B sarà quello di aiutare C.

Per ridurre al minimo le interferenze e far sì che le deduzioni di C si basino esclusivamente sulle risposte ricevute, durante il gioco C non avrà contatti diretti con A e B, e riceverà le risposte alle sue domande in forma scritta.
C potrà porre domande sia ad A che a B e potrà ripetere le stesse domande tutte le volte che vorrà. A e B invece, potranno sia dire la verità che mentire.
A questo punto può iniziare l’imitation game.
L’interrogatore C ripeterà il gioco diverse volte, con vari A e B, ed i risultati ottenuti verranno registrati, in modo da avere una media delle volte che ha risolto correttamente il gioco, e le volte che è stato ingannato. Dopo un certo numero di tentativi tuttavia, A verrà sostituito da una macchina, e il gioco continuerà, l’interrogatore farà anche in questo caso diversi tentativi e verranno registrate le volte in ha risolto il gioco e le volte in cui è stato ingannato.
Nell’articolo Turing si chiede “Cosa accadrà quando una macchina prenderà la parte di A in questo gioco? Sostituendo all’Uomo una macchina, l’interrogatore, sarà tratto in inganno tante volte come quando al gioco partecipavano un uomo e una donna?”

Come abbiamo già detto, test di Turing, altro non è che un indagine statistica, in cui compariamo i risultati dell’interrogatore ottenuti giocando contro un umano e contro una macchina, aiutato in entrambi i casi da una donna umana.
Come si supera il Test di Turing?
Molto spesso, quando leggiamo articolo in cui ci dicono che una data IA ha superato il test di Turing, in realtà, ci stanno dicendo che l’interrogatore non è riuscito a determinare chi fosse l’Uomo e chi la Donna. Ma questo dato, da solo, senza uno storico di tentativi, dei successi e fallimenti, registrati da quello stesso interrogatore, non vale assolutamente nulla. E anzi, ha la stessa rilevanza di una partita ad Akinator/20Questions, o Indovina chi, anche perché in effetti il gioco alla base dell’imitation game c’è proprio “20 questions”, letteralmente un gioco di deduzione per bambini riadattato e rielaborato.
Purtroppo però, spesso è sufficiente che l’IA riesca ad ingannare l’interrogatore, affinché ci venga detto che l’IA in questione ha “superato” il test di Turing.
ChatGPT ha superato il test di Turing?
Ora che sappiamo come funziona il test possiamo entrare nel merito dell’articolo di Cameron R.Jones e Benjamin K.Bergen, e capire se effettivamente ChatGPT e LLama hanno superato il test di Turing.
E già qui bisogna fare la prima distinzione. Secondo quanto riportato dai media, Chat GPT 4.5 è riuscito ad “ingannare” l’esaminatore, nel 73% dei casi, in sessioni da 5 minuti mentre Llama 3.1-405B ci è riuscita nel 56% dei casi.
Questi risultati sono sicuramente interessanti, ma non significano nulla, perché come abbiamo visto, non è importante quante volte l’IA riesce ad ingannare l’esaminatore, e quel dato ha senso solo se affiancato da altri dati, come ad esempio la percentuale di successo e fallimento, registrata da quegli stessi esaminatori nell’individuare l’Uomo e la Donna, e non solo l’IA.
I primi dati “utili” ci vengono forniti a pagina 5 dell’articolo e mostrano la percentuale di successo di diversi modelli IA e ci viene detto che una percentuale di successo nell’ingannare l’esaminatore, superiore al 50% porta sostanzialmente al superamento del test di turing.

Ma come abbiamo visto, non è così che funziona il test di Turing.
Nell’articolo ci vengono forniti molti altri dati, informazioni sulle domande, sui modelli linguistici esaminati, sui prompt utilizzati per la configurazione delle diverse IA affinché questa si comportassero come umani, e non fraintendetemi, sono tutti dati estremamente interessanti e sicuramente utilissimi per molte ragioni, ma che non ci dicono assolutamente nulla sul test di Turing. Di seguito un esempio di prompt utilizzato per “istruire” l’IA.

Come abbiamo visto, il test di Turing, si divide in due fasi, ma in questo articolo, non ci parlano della fase 1, e i ricercatori hanno eseguito solo la fase due. Il problema è che la fase 1 del test di Turing è fondamentale per la sua corretta esecuzione.
Nella prima fase, come abbiamo già visto, l’esaminatore “gioca” con degli umani, un uomo e una donna, l’uomo prova ad ingannarlo mentre la donna prova ad aiutarlo, e l’esaminatore deve individuare l’uomo. Questa fase serve per determinare un valore di riferimento che riguarda la percentuale di successo dell’esaminatore. Solo una volta ottenuto questo dato, è possibile sostituire l’uomo con l’IA mentre la donna che dovrà aiutarlo rimarrà un umana.
A questo punto, si esegue una nuova serie di test, tante partite quante ne sono state “giocate” contro umani, e si compareranno i dati finali.
Se la percentuale di successo contro l’IA, con un certo margine d’errore, vicina alla percentuale di successo registrata contro giocatori Umani, allora, e solo allora, il test può dirsi superato.
In questo articolo tuttavia, questa comparazione manca totalmente. Non vi è alcun riferimento a test comparazioni e test in cui sono stati coinvolti tre “giocatori” umani. L’unico dato effettivo che ci viene fornito da questo articolo è la percentuale di “successo” registrata dall’esaminatore contro l’IA. Un dato che, come abbiamo già detto innumerevoli volte, nell’ottica del test di Turing, non vuol dire assolutamente nulla.
Conclusione
L’articolo di Jones e Bergen è sicuramente molto interessante, ma a differenza di quanto riportato dai media, non ci dice che ChatGPT e LLama hanno superato il test di Turing, e con i dati che vengono forniti non è possibile determinarlo.
È un po’ come se un vostro amico vi invitasse a cena da lui dicendo che sa preparare uno dei piatti di Cannavacciuolo e che non riuscireste a sentire la differenza tra il suo piatto e quello di Cannavacciuolo, vi fa assaggiare la sua versione del piatto, ma voi non avete mai mangiato da Cannavacciuolo, non sapete che sapore ha il piatto originale.
Come fate a dire se il piatto del vostro amico è uguale o diverso da quello di Cannavacciuolo? Semplicemente non potete.
Fonti
Per chi fosse interessato vi lascio di seguito l’articolo originale di Alan Turing del 1950, sono solo 22 pagine, ma il funzionamento e gli obbiettivi del test sono sostanzialmente spiegati nelle prime 3 pagine. E l’articolo di Jones e Bergen
Computing machinery and intelliogence By A. M. Turing
ChatGPT-4 in the Turing Test: A Critical Analysis