Chat GPT e LLama hanno superato il Test di Turing? No, ancora nessuna IA ha superato il Test di Turing (Aggiornato ad aprile 2025)

Secondo uno studio pubblicato su arXiv, ChatGPT e Llama3.1-405B avrebbero superato il test di Turing. Ma è davvero così? LA risposta semplice è no, anche perché, contrariamente a quanto riferito dai ricercatori, quello eseguito non è il test di Turing e non ci vengono forniti dati a sufficienza per capire se effettivamente il test è stato superato o meno.

Per i più volenterosi, l’articolo è stato pubblicato da Cameron R.Jones e Benjamin K.Bergen, entrambi ricercatori al dipartimento di scienze cognitive dell’università di San Diego, e per chi volesse recuperare l’articolo integrale, vi lascio qui il link (è pubblico)

Visto che da circa 15 anni, periodicamente inizia a circolare la notizia che una IA ha superato il test di Turing, ma poi, andando a vedere, non è proprio così, e semplicemente qualcuno ha male interpretato alcuni dati, autoconvincendosi che l’IA di turno avrebbe potuto superarlo, senza però mai fornire alcun dato sul test, e senza spiegare chi, come, dove, quando, ecc ha eseguito il test, (tra l’altro fornendo dei punteggi e percentuale di successo che non hanno alcun senso), ho deciso di scrivere un articolo che aggiornerò periodicamente, in cui andrò a spiegare cos’è il test di Turing, come funziona, e perché quello che ci viene spacciato per “test di Turing” in realtà non è il test di Turing.

Alan Turing e il suo esperimento teorico

Alan Turing è stato un matematico britannico, da molti considerato uno dei padri dell’informatica modera, mosso da alcune idee radicali, molto all’avanguardia per il suo tempo, è grazie al suo genio, è riuscito negli anni 40, grazie ad una macchina e ad alcune intuizioni, a bucare i codici Nazisti e superare Enigma. Ma questa è un altra storia.

Ciò che importa è che, dopo la guerra, gran parte del lavoro di Turing e del team di Bletchley Park venne “insabbiato” e messo sottochiave almeno fino ai primi anni 2000, inoltre Turing, per via della sua omosessualità, che nell’Regno Unito dell’epoca era illegale, venne sottoposto a castrazione chimica, cosa che ebbe diversi effetti collaterali sulla sua salute e gli causò una forte depressione.

Negli anni 50 sostanzialmente Turing era un autentico eroe di guerra, completamente sconosciuto al popolo britannico, abbandonato dallo stato e per lo più perseguitato per il suo orientamento sessuale e le sue idee, e quando dico perseguitato, intendo dire che era tenuto sotto strettissima osservazione perché sostanzialmente era un civile in possesso di segreti militai, di grandissimo valore.

In questo contesto Turing, nel 1950, cinque anni dopo la fine della guerra e quattro anni prima che si togliesse la vita, pubblica un articolo sulla rivista Mind, intitolato “Computing Machinery and Intelligence” in cui esponeva un esperimento teorico chiamato “The imitation game” con cui cerca di capire quanto una macchina riesce ad imitare il pensiero.

Col tempo il gioco dell’imitazione, è stato ribattezzato in Turing Test/Test di Turing, e si è diffusa l’idea che tale test cercasse di rispondere alla domanda “le macchine possono pensare?” In realtà, basta aprire l’articolo e nel primo paragrafo scopriamo che Turing non si chiede se “le macchine possono pensare” ma propone una domanda più precisa e meno ambigua.

A questo punto Turing propone una nuova formulazione spiegando qual è l’obbiettivo del suo test. Si tratta in sostanza di un indagine statistica che prevede la ripetizione di un gioco di deduzione per 2*X volte, durante il primo ciclo di gioco ci saranno tre giocatori umani, durante il secondo ciclo invece, uno dei giocatori, con un ruolo ben preciso, sarà sostituito da una macchina.

Cerchiamo allora di capire come funziona il Test di Turing, e quando possiamo dire che una “macchina” ha superato il test di Turing, e soprattutto, se possiamo effettivamente dire che una macchina ha superato il test di Turing.

Come funziona il Test di Turing

Abbiamo tre giocatori, un uomo A, una donna B e un interrogatore C che può essere di entrambi i sessi. L’obbiettivo di C sarà quello di determinare chi tra i due è l’uomo e chi la donna, l’obbiettivo di A sarà quello di far sbagliare C mentre l’obbiettivo di B sarà quello di aiutare C.

Per ridurre al minimo le interferenze e far sì che le deduzioni di C si basino esclusivamente sulle risposte ricevute, durante il gioco C non avrà contatti diretti con A e B, e riceverà le risposte alle sue domande in forma scritta.

C potrà porre domande sia ad A che a B e potrà ripetere le stesse domande tutte le volte che vorrà. A e B invece, potranno sia dire la verità che mentire.

A questo punto può iniziare l’imitation game.

L’interrogatore C ripeterà il gioco diverse volte, con vari A e B, ed i risultati ottenuti verranno registrati, in modo da avere una media delle volte che ha risolto correttamente il gioco, e le volte che è stato ingannato. Dopo un certo numero di tentativi tuttavia, A verrà sostituito da una macchina, e il gioco continuerà, l’interrogatore farà anche in questo caso diversi tentativi e verranno registrate le volte in ha risolto il gioco e le volte in cui è stato ingannato.

Nell’articolo Turing si chiede “Cosa accadrà quando una macchina prenderà la parte di A in questo gioco? Sostituendo all’Uomo una macchina, l’interrogatore, sarà tratto in inganno tante volte come quando al gioco partecipavano un uomo e una donna?

Come abbiamo già detto, test di Turing, altro non è che un indagine statistica, in cui compariamo i risultati dell’interrogatore ottenuti giocando contro un umano e contro una macchina, aiutato in entrambi i casi da una donna umana.

Come si supera il Test di Turing?

Molto spesso, quando leggiamo articolo in cui ci dicono che una data IA ha superato il test di Turing, in realtà, ci stanno dicendo che l’interrogatore non è riuscito a determinare chi fosse l’Uomo e chi la Donna. Ma questo dato, da solo, senza uno storico di tentativi, dei successi e fallimenti, registrati da quello stesso interrogatore, non vale assolutamente nulla. E anzi, ha la stessa rilevanza di una partita ad Akinator/20Questions, o Indovina chi, anche perché in effetti il gioco alla base dell’imitation game c’è proprio “20 questions”, letteralmente un gioco di deduzione per bambini riadattato e rielaborato.

Purtroppo però, spesso è sufficiente che l’IA riesca ad ingannare l’interrogatore, affinché ci venga detto che l’IA in questione ha “superato” il test di Turing.

ChatGPT ha superato il test di Turing?

Ora che sappiamo come funziona il test possiamo entrare nel merito dell’articolo di Cameron R.Jones e Benjamin K.Bergen, e capire se effettivamente ChatGPT e LLama hanno superato il test di Turing.

E già qui bisogna fare la prima distinzione. Secondo quanto riportato dai media, Chat GPT 4.5 è riuscito ad “ingannare” l’esaminatore, nel 73% dei casi, in sessioni da 5 minuti mentre Llama 3.1-405B ci è riuscita nel 56% dei casi.

Questi risultati sono sicuramente interessanti, ma non significano nulla, perché come abbiamo visto, non è importante quante volte l’IA riesce ad ingannare l’esaminatore, e quel dato ha senso solo se affiancato da altri dati, come ad esempio la percentuale di successo e fallimento, registrata da quegli stessi esaminatori nell’individuare l’Uomo e la Donna, e non solo l’IA.

I primi dati “utili” ci vengono forniti a pagina 5 dell’articolo e mostrano la percentuale di successo di diversi modelli IA e ci viene detto che una percentuale di successo nell’ingannare l’esaminatore, superiore al 50% porta sostanzialmente al superamento del test di turing.

Ma come abbiamo visto, non è così che funziona il test di Turing.

Nell’articolo ci vengono forniti molti altri dati, informazioni sulle domande, sui modelli linguistici esaminati, sui prompt utilizzati per la configurazione delle diverse IA affinché questa si comportassero come umani, e non fraintendetemi, sono tutti dati estremamente interessanti e sicuramente utilissimi per molte ragioni, ma che non ci dicono assolutamente nulla sul test di Turing. Di seguito un esempio di prompt utilizzato per “istruire” l’IA.

Come abbiamo visto, il test di Turing, si divide in due fasi, ma in questo articolo, non ci parlano della fase 1, e i ricercatori hanno eseguito solo la fase due. Il problema è che la fase 1 del test di Turing è fondamentale per la sua corretta esecuzione.

Nella prima fase, come abbiamo già visto, l’esaminatore “gioca” con degli umani, un uomo e una donna, l’uomo prova ad ingannarlo mentre la donna prova ad aiutarlo, e l’esaminatore deve individuare l’uomo. Questa fase serve per determinare un valore di riferimento che riguarda la percentuale di successo dell’esaminatore. Solo una volta ottenuto questo dato, è possibile sostituire l’uomo con l’IA mentre la donna che dovrà aiutarlo rimarrà un umana.

A questo punto, si esegue una nuova serie di test, tante partite quante ne sono state “giocate” contro umani, e si compareranno i dati finali.

Se la percentuale di successo contro l’IA, con un certo margine d’errore, vicina alla percentuale di successo registrata contro giocatori Umani, allora, e solo allora, il test può dirsi superato.

In questo articolo tuttavia, questa comparazione manca totalmente. Non vi è alcun riferimento a test comparazioni e test in cui sono stati coinvolti tre “giocatori” umani. L’unico dato effettivo che ci viene fornito da questo articolo è la percentuale di “successo” registrata dall’esaminatore contro l’IA. Un dato che, come abbiamo già detto innumerevoli volte, nell’ottica del test di Turing, non vuol dire assolutamente nulla.

Conclusione

L’articolo di Jones e Bergen è sicuramente molto interessante, ma a differenza di quanto riportato dai media, non ci dice che ChatGPT e LLama hanno superato il test di Turing, e con i dati che vengono forniti non è possibile determinarlo.

È un po’ come se un vostro amico vi invitasse a cena da lui dicendo che sa preparare uno dei piatti di Cannavacciuolo e che non riuscireste a sentire la differenza tra il suo piatto e quello di Cannavacciuolo, vi fa assaggiare la sua versione del piatto, ma voi non avete mai mangiato da Cannavacciuolo, non sapete che sapore ha il piatto originale.

Come fate a dire se il piatto del vostro amico è uguale o diverso da quello di Cannavacciuolo? Semplicemente non potete.

Fonti

Per chi fosse interessato vi lascio di seguito l’articolo originale di Alan Turing del 1950, sono solo 22 pagine, ma il funzionamento e gli obbiettivi del test sono sostanzialmente spiegati nelle prime 3 pagine. E l’articolo di Jones e Bergen

Computing machinery and intelliogence By A. M. Turing
ChatGPT-4 in the Turing Test: A Critical Analysis

L’occhio di Horus nella matematica Egizia

Secondo una legenda Egizia, il dio Seth aveva strappato l’occhio sinistro del dio Horus e lo aveva ridotto in pezzi, ma il dio Thoth riuscì a ricomporlo grazie alla sua magia e proprio la sua magia gli permise di rubare un frammento dell’occhio senza che però la sua assenza minasse l’integrità dell’occhio.

Questa leggenda, o se preferite questo mito, è considerato da molti come il “punto d’origine dell’aritmetica egizia” e del calcolo infinitesimale, infatti, le parti dell’occhio di Horus (successivamente identificato come occhio di Ra) erano utilizzate per per descrivere le frazioni e insieme rappresentavano l’unità, tuttavia si trattava di un unità approssimativa, data l’assenza di un frammento sparito grazie alla magia del dio  Thoth.

Nel suo insieme l’occhi rappresenta la somma dei primi 6 valori della serie numerica 1/2^n, la cui somma, nella matematica moderna equivale al numero decimale 0.984375, esprimibile anche come 63/64, ma nella matematica egizia, la somma di questi elementi dava come risultato 1, o meglio, dava come risultato 63/64 tuttavia, grazie alla magia di Thoth questa “unità” parziale poteva assumere i tratti di un’intero, diventando 64/64, insomma, la magia del dio Thoth aggiungeva il 1/64 mancante.

Oggi sappiamo che rimuovendo il vincolo dei primi cinque elementi e procedendo sommando tutte le infinite frazioni ottenute dimezzando il numero intero, ci avvicineremmo sempre di più all’unità 1 senza però mai raggiungerla effettivamente, di fatto ci ritroveremo di fronte ad una funzione espressa come la sommatoria 1/n^2 (∑ 1/2^n) dove n va da 1 ad e il cui risultato, dato appunto dalla somma di tutti gli elementi che compongono la serie numerica (quindi (1/2)+(1/4)+(1/8)+(1/16)+(1/32)+(1/64)+…) sarà un numero che converge (in matematica, la convergenza è la proprietà di una certa funzione o successione di possedere un limite finito di qualche tipo, o, il cui risultato al tendere della variabile o dell’indice eventualmente verso certi valori in un determinato punto o all’infinito) verso l’1.

mi scuso per la pessima spiegazione matematica, spero comunque di aver reso l’idea.

Il fatto che per gli egizi (1/2)+(1/4)+(1/8)+(1/16)+(1/32)+(1/64) non desse effettivamente 1 ma ci si avvicinava tantissimo e che la differenza tra 1 e 0.984375 (ovvero 0.015625) fosse un numero talmente piccolo da poter essere trascurato, ma non per questo ignorato, ci da un informazione ben precisa sul livello di accuratezza decimale posseduta dagli egizi, un accuratezza che si spingeva almeno fino ai 63/64 e quell’1/64 che restava fuori, rappresentato da un decimale con sei cifre dopo la virgola, che era considerato “trascurabile”, ed era trascurabile perché, per quelli che erano gli strumenti di osservazione dell’epoca, rappresentava un valore estremamente piccolo, la cui presenza o assenza non avrebbe avuto effetti visibili, tuttavia, in presenza di strumenti di osservazioni più accurati o per necessità particolari, era possibile avanzare con il frazionamento, raggiungendo così un livello di accuratezza sempre maggiore.

Detto più semplicemente, la magia di Thoth era soddisfacente per chi si accontentava dell’approssimazione, ma non chiudeva le porte a chi voleva scavare più affondo ed avere un’accuratezza maggiore.

Fingendo di usare un linguaggio matematico, potremmo dire che le parti osservate dell’occhio di Horus facciano parte di un certo insieme, ma per trovare la parte mancante bisogna estendere la ricerca ad un insieme “più ampio” e invisibile all’occhio umano, definito dalla magia di Thoth. Applicando un ragionamento di questo tipo alla matematica moderna il rischio di ricorrere in pericolosi paradossi non è trascurabile, tuttavia, mantenendo un minor livello di accuratezza e riempiendo i vuoti con la “magia di Thoth”, la logica matematica degli egizi riuscì ad eludere quei paradossi.

Questa osservazione fa supporre che gli egizi fossero in grado di eseguire calcoli molto più accurati, con un errore inferiore al sessantaquattresimo e se bene il valore minimo presente nell’occhio di Horus fosse rappresentato proprio da 1/64, questo non significava automaticamente che 1/64 fosse il valore minimo conosciuto dagli egizi, anzi, applicando lo stesso procedimento logico che ha portato al valore di 1/64 era potenzialmente possibile procedere all’infinito. Ma andiamo con ordine.

L’occhio di Horus è un elemento molto ricorrente nei reperti archeologici egizi, questo elemento ha un enorme valore, non soltanto sul piano matematico, ma anche e soprattutto sul piano religioso, ed è proprio nel mito dell’occhio di Horus che si può individuare un elemento matematico aggiuntivo.

Come sappiamo, secondo la mitologia egizia il dio Seth distrusse l’occhio sinistro di Horus che poi fu ricomposto dalla magia di Thoth. Il fatto che il mito specifichi che si tratti dell’occhio sinistro e che non ci venga fornita alcuna informazione sull’occhio destro di Horus  unito al fatto che in nessun mito ci viene detto che il dio Horus era un dio guercio, significa che da qualche parte doveva esserci anche un occhio destro di Horus e in effetti, reperti raffiguranti anche l’occhio destro di Horus non mancano, e tra i tanti, un reperto in particolare ha catturato l’attenzione degli studiosi della matematica degli egizi, si tratta della stele di Nebipusesostri, risalenti al regno di Amenemhet III, nella cui colonna centrale sono raffigurati i due occhi di Horus e non solo quelli.


L’elemento realmente interessante dal punto di vista matematico, non sono i due occhi, ma l’unione dei due occhi e in particolare l’elemento che si frappone tra i due occhi, si tratta di tre simboli paralleli, spesso indicati come “lacrime di Horus” situati al di sotto degli occhi e collocati esattamente tra i due simboli speculari che indicano il valore di 1/64.

Se procediamo assegniamo al simbolo centrale dei tre il valore 1/64 e ai due simboli esterni il valore 1/128 e poi sommiamo questi numeri otterremo 2/64, ovvero 1/64 per ognuno dei due occhi di Horus,  esattamente il valore mancante all’uno e all’altro occhio per raggiungere l’unità matematica e di conseguenza quei simboli potrebbero essere letti come una raffigurazione l’insieme esterno indicato dalla “magia di Thoth”.

Questa interpretazione matematica per quanto interessante e affascinante soffre di un profondo difetto logico che consiste nell’aver assegnato a tre simboli identici dei valori differenti, questa operazione matematica appare come troppo artificiale e forzata. Più probabilmente i tre simboli identificati come le tre lacrime di Horus avessero un valore un valore univoco ed il loro frazionamento produceva tre elementi di eguale valore. Procedendo con questa osservazione si può dedurre che le lacrime di Horus nel loro insieme avevano un valore di 3/128 e separate, ognuna delle tre lacrime assumeva un valore di 1/128. Ragionando in questi termini tuttavia emerge un ulteriore problema, o meglio, ritorna il problema dell’occhio di Horus, poiché non è possibile raggiungere l’unità, in quanto assegnando il simbolo dal valore 1/128 posto a destra all’occhio destro e quello posto a sinistra all’occhio sinistro, ci ritroveremmo nella situazione precedente, ovvero con un valore del singolo occhio pari a 127/128 e di conseguenza, ad ognuno degli occhi mancherebbe 1/128, e se è vero che nel geroglifico è presente ancora un simbolo dal valore di 1/128, è anche vero che per completare i due occhi servono 2/128, di conseguenza è possibile completare l’unità per un singolo occhio, presumibilmente quello destro, mentre l’altro occhio sinistro continuerà ad essere mantenuto insieme dalla sola magia di Thoth.

Vi è però un’apparente via d’uscita matematica, si può procedere con la divisione dell’ultima lacrima in due parti, entrambe dal valore di 1/256 che andranno ad unirsi, una all’occhio destro ed una all’occhio sinistro. In questo modo il problema non verrebbe realmente risolto, in quanto la somma di tutti gli elementi di un singolo occhio avrebbe come risultato 255/256 e quindi ad entrambi gli occhi mancherebbe ancora una volta un frammento, se bene estremamente più piccolo. Questa situazione, o meglio, la presenza della terza lacrima, ci suggerisce che è possibile dimezzare all’infinito un intero, ma allo stesso tempo ci dice anche che questa operazione è trascurabile poiché è “inutile” dimezzare per più di 7 volte un intero, e  1/128 è proprio la settima frazione dell’intero, questa frazione può essere espressa anche come 1/2^7.

Non c’entra molto, ma è interessante osservare che 7 è il numero massimo di volte in cui è possibile piegare a metà, dimezzando ogni volta la sua superficie, un foglio di carta. Indipendentemente dalle sue dimensioni infatti, non sarà possibile piegarle un foglio per più di 7 volte.
Se non ci credete provate pure, ma ricordatevi di dimezzare sempre la superficie del foglio, altrimenti non vale.

Tornando alle lacrime di Horus, come abbiamo visto, la loro presenza ci suggerisce ancora una volta che gli egizi avevano una conoscenza della matematica infinitesimale molto più avanzata di quanto si potrebbe immaginare. Come sappiamo, questo concetto che si sarebbe successivamente evoluto e diffuso fino ad arrivare ai giorni nostri e credo sia opportuno citare quello che molto probabilmente è il più celebre esempio di questo tipo di matematica nel mondo “occidentale.

Per quanto riguarda l’Egitto non sappiamo esattamente fino a che punto si spinse la loro matematica, l’occhio di Horus ci dice che conoscevano valori numerici estremamente piccoli e questo significa che erano in grado di eseguire calcoli estremamente complessi ed accurati. Purtroppo però, la loro conoscenze della matematica infinitesimale ha contribuito a gettare le basi della “matematica avanzata” del mondo occidentale (in particolare del mondo greco e romano) le cui origini, almeno per quanto riguarda il “calcolo infinitesimale” affondano soltanto nella Grecia del V secolo a.c. dove il filosofo Zenone di Elea, per difendere le tesi del proprio maestro Parmenide, il quale sosteneva che il movimento fosse un’illusione, elaborò il famoso paradosso di Achille e la tartaruga, noto anche come paradosso di Zenone, in cui Achille, inseguendo la tartaruga non riuscirà mai a raggiungerla.

La spiegazione matematica del paradosso di Zenone sta proprio nel fatto che gli infiniti intervalli percorsi ogni volta da Achille per raggiungere la tartaruga diventano sempre più piccoli ed il limite della loro somma converge per le proprietà delle serie geometriche. In questo caso Zenone osserva che una somma di infiniti elementi, o meglio, il limite di una somma di infiniti elementi non è necessariamente infinito e un esempio concreto di questa teoria è dato dalla somma delle frazioni ottenute dimezzando ogni volta un intero (analogamente a quanto accadrebbe prolungando la successione dell’occhio di Horus), quindi ∑1/n^2.

Se bene Achille in realtà fosse assolutamente in grado di raggiungere la tartaruga, dal punto di vista matematico non sarebbe mai riuscito a raggiungerla e quando una funzione matematica si trova in una situazione di questo tipo, si dice che tende ad un dato valore, in questo caso 1, ovvero si avvicina sempre di più ad 1 senza mai raggiungerlo. Possedere questo livello di conoscenza matematica implica la conoscenza del concetto di infinitesimo, ovvero di un valore numerico che tende allo zero senza però mai raggiungerlo.