Chat GPT e LLama hanno superato il Test di Turing? No, ancora nessuna IA ha superato il Test di Turing (Aggiornato ad aprile 2025)

Secondo uno studio pubblicato su arXiv, ChatGPT e Llama3.1-405B avrebbero superato il test di Turing. Ma è davvero così? LA risposta semplice è no, anche perché, contrariamente a quanto riferito dai ricercatori, quello eseguito non è il test di Turing e non ci vengono forniti dati a sufficienza per capire se effettivamente il test è stato superato o meno.

Per i più volenterosi, l’articolo è stato pubblicato da Cameron R.Jones e Benjamin K.Bergen, entrambi ricercatori al dipartimento di scienze cognitive dell’università di San Diego, e per chi volesse recuperare l’articolo integrale, vi lascio qui il link (è pubblico)

Visto che da circa 15 anni, periodicamente inizia a circolare la notizia che una IA ha superato il test di Turing, ma poi, andando a vedere, non è proprio così, e semplicemente qualcuno ha male interpretato alcuni dati, autoconvincendosi che l’IA di turno avrebbe potuto superarlo, senza però mai fornire alcun dato sul test, e senza spiegare chi, come, dove, quando, ecc ha eseguito il test, (tra l’altro fornendo dei punteggi e percentuale di successo che non hanno alcun senso), ho deciso di scrivere un articolo che aggiornerò periodicamente, in cui andrò a spiegare cos’è il test di Turing, come funziona, e perché quello che ci viene spacciato per “test di Turing” in realtà non è il test di Turing.

Alan Turing e il suo esperimento teorico

Alan Turing è stato un matematico britannico, da molti considerato uno dei padri dell’informatica modera, mosso da alcune idee radicali, molto all’avanguardia per il suo tempo, è grazie al suo genio, è riuscito negli anni 40, grazie ad una macchina e ad alcune intuizioni, a bucare i codici Nazisti e superare Enigma. Ma questa è un altra storia.

Ciò che importa è che, dopo la guerra, gran parte del lavoro di Turing e del team di Bletchley Park venne “insabbiato” e messo sottochiave almeno fino ai primi anni 2000, inoltre Turing, per via della sua omosessualità, che nell’Regno Unito dell’epoca era illegale, venne sottoposto a castrazione chimica, cosa che ebbe diversi effetti collaterali sulla sua salute e gli causò una forte depressione.

Negli anni 50 sostanzialmente Turing era un autentico eroe di guerra, completamente sconosciuto al popolo britannico, abbandonato dallo stato e per lo più perseguitato per il suo orientamento sessuale e le sue idee, e quando dico perseguitato, intendo dire che era tenuto sotto strettissima osservazione perché sostanzialmente era un civile in possesso di segreti militai, di grandissimo valore.

In questo contesto Turing, nel 1950, cinque anni dopo la fine della guerra e quattro anni prima che si togliesse la vita, pubblica un articolo sulla rivista Mind, intitolato “Computing Machinery and Intelligence” in cui esponeva un esperimento teorico chiamato “The imitation game” con cui cerca di capire quanto una macchina riesce ad imitare il pensiero.

Col tempo il gioco dell’imitazione, è stato ribattezzato in Turing Test/Test di Turing, e si è diffusa l’idea che tale test cercasse di rispondere alla domanda “le macchine possono pensare?” In realtà, basta aprire l’articolo e nel primo paragrafo scopriamo che Turing non si chiede se “le macchine possono pensare” ma propone una domanda più precisa e meno ambigua.

A questo punto Turing propone una nuova formulazione spiegando qual è l’obbiettivo del suo test. Si tratta in sostanza di un indagine statistica che prevede la ripetizione di un gioco di deduzione per 2*X volte, durante il primo ciclo di gioco ci saranno tre giocatori umani, durante il secondo ciclo invece, uno dei giocatori, con un ruolo ben preciso, sarà sostituito da una macchina.

Cerchiamo allora di capire come funziona il Test di Turing, e quando possiamo dire che una “macchina” ha superato il test di Turing, e soprattutto, se possiamo effettivamente dire che una macchina ha superato il test di Turing.

Come funziona il Test di Turing

Abbiamo tre giocatori, un uomo A, una donna B e un interrogatore C che può essere di entrambi i sessi. L’obbiettivo di C sarà quello di determinare chi tra i due è l’uomo e chi la donna, l’obbiettivo di A sarà quello di far sbagliare C mentre l’obbiettivo di B sarà quello di aiutare C.

Per ridurre al minimo le interferenze e far sì che le deduzioni di C si basino esclusivamente sulle risposte ricevute, durante il gioco C non avrà contatti diretti con A e B, e riceverà le risposte alle sue domande in forma scritta.

C potrà porre domande sia ad A che a B e potrà ripetere le stesse domande tutte le volte che vorrà. A e B invece, potranno sia dire la verità che mentire.

A questo punto può iniziare l’imitation game.

L’interrogatore C ripeterà il gioco diverse volte, con vari A e B, ed i risultati ottenuti verranno registrati, in modo da avere una media delle volte che ha risolto correttamente il gioco, e le volte che è stato ingannato. Dopo un certo numero di tentativi tuttavia, A verrà sostituito da una macchina, e il gioco continuerà, l’interrogatore farà anche in questo caso diversi tentativi e verranno registrate le volte in ha risolto il gioco e le volte in cui è stato ingannato.

Nell’articolo Turing si chiede “Cosa accadrà quando una macchina prenderà la parte di A in questo gioco? Sostituendo all’Uomo una macchina, l’interrogatore, sarà tratto in inganno tante volte come quando al gioco partecipavano un uomo e una donna?

Come abbiamo già detto, test di Turing, altro non è che un indagine statistica, in cui compariamo i risultati dell’interrogatore ottenuti giocando contro un umano e contro una macchina, aiutato in entrambi i casi da una donna umana.

Come si supera il Test di Turing?

Molto spesso, quando leggiamo articolo in cui ci dicono che una data IA ha superato il test di Turing, in realtà, ci stanno dicendo che l’interrogatore non è riuscito a determinare chi fosse l’Uomo e chi la Donna. Ma questo dato, da solo, senza uno storico di tentativi, dei successi e fallimenti, registrati da quello stesso interrogatore, non vale assolutamente nulla. E anzi, ha la stessa rilevanza di una partita ad Akinator/20Questions, o Indovina chi, anche perché in effetti il gioco alla base dell’imitation game c’è proprio “20 questions”, letteralmente un gioco di deduzione per bambini riadattato e rielaborato.

Purtroppo però, spesso è sufficiente che l’IA riesca ad ingannare l’interrogatore, affinché ci venga detto che l’IA in questione ha “superato” il test di Turing.

ChatGPT ha superato il test di Turing?

Ora che sappiamo come funziona il test possiamo entrare nel merito dell’articolo di Cameron R.Jones e Benjamin K.Bergen, e capire se effettivamente ChatGPT e LLama hanno superato il test di Turing.

E già qui bisogna fare la prima distinzione. Secondo quanto riportato dai media, Chat GPT 4.5 è riuscito ad “ingannare” l’esaminatore, nel 73% dei casi, in sessioni da 5 minuti mentre Llama 3.1-405B ci è riuscita nel 56% dei casi.

Questi risultati sono sicuramente interessanti, ma non significano nulla, perché come abbiamo visto, non è importante quante volte l’IA riesce ad ingannare l’esaminatore, e quel dato ha senso solo se affiancato da altri dati, come ad esempio la percentuale di successo e fallimento, registrata da quegli stessi esaminatori nell’individuare l’Uomo e la Donna, e non solo l’IA.

I primi dati “utili” ci vengono forniti a pagina 5 dell’articolo e mostrano la percentuale di successo di diversi modelli IA e ci viene detto che una percentuale di successo nell’ingannare l’esaminatore, superiore al 50% porta sostanzialmente al superamento del test di turing.

Ma come abbiamo visto, non è così che funziona il test di Turing.

Nell’articolo ci vengono forniti molti altri dati, informazioni sulle domande, sui modelli linguistici esaminati, sui prompt utilizzati per la configurazione delle diverse IA affinché questa si comportassero come umani, e non fraintendetemi, sono tutti dati estremamente interessanti e sicuramente utilissimi per molte ragioni, ma che non ci dicono assolutamente nulla sul test di Turing. Di seguito un esempio di prompt utilizzato per “istruire” l’IA.

Come abbiamo visto, il test di Turing, si divide in due fasi, ma in questo articolo, non ci parlano della fase 1, e i ricercatori hanno eseguito solo la fase due. Il problema è che la fase 1 del test di Turing è fondamentale per la sua corretta esecuzione.

Nella prima fase, come abbiamo già visto, l’esaminatore “gioca” con degli umani, un uomo e una donna, l’uomo prova ad ingannarlo mentre la donna prova ad aiutarlo, e l’esaminatore deve individuare l’uomo. Questa fase serve per determinare un valore di riferimento che riguarda la percentuale di successo dell’esaminatore. Solo una volta ottenuto questo dato, è possibile sostituire l’uomo con l’IA mentre la donna che dovrà aiutarlo rimarrà un umana.

A questo punto, si esegue una nuova serie di test, tante partite quante ne sono state “giocate” contro umani, e si compareranno i dati finali.

Se la percentuale di successo contro l’IA, con un certo margine d’errore, vicina alla percentuale di successo registrata contro giocatori Umani, allora, e solo allora, il test può dirsi superato.

In questo articolo tuttavia, questa comparazione manca totalmente. Non vi è alcun riferimento a test comparazioni e test in cui sono stati coinvolti tre “giocatori” umani. L’unico dato effettivo che ci viene fornito da questo articolo è la percentuale di “successo” registrata dall’esaminatore contro l’IA. Un dato che, come abbiamo già detto innumerevoli volte, nell’ottica del test di Turing, non vuol dire assolutamente nulla.

Conclusione

L’articolo di Jones e Bergen è sicuramente molto interessante, ma a differenza di quanto riportato dai media, non ci dice che ChatGPT e LLama hanno superato il test di Turing, e con i dati che vengono forniti non è possibile determinarlo.

È un po’ come se un vostro amico vi invitasse a cena da lui dicendo che sa preparare uno dei piatti di Cannavacciuolo e che non riuscireste a sentire la differenza tra il suo piatto e quello di Cannavacciuolo, vi fa assaggiare la sua versione del piatto, ma voi non avete mai mangiato da Cannavacciuolo, non sapete che sapore ha il piatto originale.

Come fate a dire se il piatto del vostro amico è uguale o diverso da quello di Cannavacciuolo? Semplicemente non potete.

Fonti

Per chi fosse interessato vi lascio di seguito l’articolo originale di Alan Turing del 1950, sono solo 22 pagine, ma il funzionamento e gli obbiettivi del test sono sostanzialmente spiegati nelle prime 3 pagine. E l’articolo di Jones e Bergen

Computing machinery and intelliogence By A. M. Turing
ChatGPT-4 in the Turing Test: A Critical Analysis

Uomini contro Macchine : i Robot ci rubano il lavoro ?

È una sfida antichissima quella che vede gli uomini schierati contro le “macchine”, senza che questi si rendano conto che la macchia, altro non è, che uno strumento tecnologico al suo servizio e non un nemico contro cui combattere. Ma del resto, se provassimo a scavare appena un po più affondo, potremmo notare senza troppa fatica che, questo rapporto di ostilità tra l’uomo e la macchina, altro non è che la “naturale evoluzione” di uno scontro molto più ancora, tra l’uomo e qualsiasi strumento volto a stravolgere il suo modo di lavorare.

Sembra quasi che all’ essere umano lavoratore, piaccia particolarmente stancarsi e affaticarsi più del dovuto, ma allo stesso tempo esso non vede di buon occhio la possibilità di lavorare a se stesso e per se stesso, allo scopo di miglioramento delle proprie possibilità, insomma, all’ uomo piace stancarsi inutilmente, ma quando c’è da rimboccarsi le maniche seriamente è sempre pronto a defilarsi in cerca di una soluzione più semplice, che precluda il cambiamento, radicandosi in un profondo rifiuto al cambiamento e preferendo il lavoro “tradizionale”, ormai obsoleto e inutilmente più faticoso e costoso in termini sia economici che energetici.

Per avere un quadro più completo di questo scontro tra l’uomo e la macchina, dove però la macchina non combatte realmente, possiamo guardare ad alcuni degli innumerevoli esempi storici, costituiti dalle innumerevoli “rivoluzioni tecnologiche”, e che di fatto, ci forniscono un immensa rosa do possibili esempi, tra cui, più di tutti, spiccano le varie rivoluzioni industriali, l’ultima delle quali sta compiendosi proprio nella nostra epoca.
La nostra rivoluzione industriale più di qualunque altra rivoluzione tecnologica del passato, si fonda su di un radicale cambio nel modo di concepire sia la produzione che le tecniche di produzione, ormai sempre più automatizzate, ed è proprio questo fattore che sta alimentando e nutrendo l’antichissima paura per una potenziale “perdita di occupazione” da parte dei lavoratori meno qualificati. Questa paura non è certamente una peculiarità della nostra epoca e della rivoluzione robotica/informatica, ma anzi, si è già presentata nella storia in innumerevoli altre occasioni.

Il caso storico del movimento luddista, nato sul finire del secolo XVIII ed esploso nei primi anni del secolo XIX è una chiara manifestazione dei questa medesima paura, espressa da parte dei lavoratori, più o meno qualificati, per la presenza e l’introduzione nei sistemi produttivi di strumenti e tecnologie che, nell’ atto pratico, riducevano notevolmente i tempi del lavoro, aumentandone quindi l’intensità, e sul lungo periodo, a parità di prodotto finito, i costi necessari alla realizzazione di un dato prodotto sarebbero andati diminuendo, permettendo quindi la nascita di quella che oggi siamo soliti chiamare “società di massa” o “del consumo”.

swing-1

Allontanando leggermente la lente dal movimento luddista e guardando all’ intero scenario planetario, dipanatosi nel corso del secolo successivo, possiamo osservare come le paure dei luddisti fossero sostanzialmente inesatte poiché essi si soffermarono soltanto su una parte del problema, proiettando i vecchi canoni ed i vecchi modelli di lavoro, in un sistema con il quale non erano più compatibili al cento per cento. Di fatto la “prima rivoluzione industriale” con le sue molteplici innovazioni ebbe sì, gli effetti negativi, preventivati dai luddisti, ovvero la riduzione e in alcuni casi la sparizione di numerose figure professionali, ma, allo stesso tempo se ne crearono di nuove, che poterono godere a pieno della riduzione dei costi di produzione, potendo quindi acquistare beni e proprietà fino a quel momento a loro esclusi, perché “troppo costosi” ed etichettati come “superflui”.
Secondo la teoria economica “classica” precedente Marx, incarnata nella visione di Jean Charles Léonard Simonde de Sismondi, la riduzione dei costi di produzione, dava sia ai lavoratori, sia ai nuovi imprenditori, le stesse possibilità d’acquisto, di conseguenza, per diversificare il proprio “status economico”, i più ricchi avrebbero concentrato le proprie risorse, non più nell’ accumulo di ricchezze, ma anche e soprattutto nell’ acquisizione di prodotti “di lusso”, derivati non dal lavoro industriale ma da quello artigianale, più elaborato, rifinito e raffinato. Andando quindi ad alimentare e nutrire una nuova tipologia di lavoratori e artigiani specializzati, in grado di rispondere alla nascente .

filatrice_automatica

Questa teoria economica nasce e si sviluppa negli anni di crescita, o per dirla in termini più moderni, negli anni del boom economico legato alla prima rivoluzione industriale, anni che però non sarebbero durati in eterno a causa della poca lungimiranza dei primi imprenditori industriali che, non tenendo in considerazione la possibilità di una saturazione del mercato, finirono di fatto nell’ arenarsi nelle proprie produzioni intensive, provocando soprattutto nell’ ultimo quarto dell’ottocento, una profonda crisi economica come mai ne erano state viste in precedenza, ma di cui alcuni teorici dell’economia avevano prospettato l’inizio.
Karl Marx e Friedrich Engels scrivevano nel capitolo primo del manifesto del partito comunista :

“Nelle crisi scoppia un epidemia sociale che in tutte le altre epoche sarebbe stata considerata un controsenso: l’epidemia della sovrapproduzione.
La società si trova improvvisamente ricacciata in uno stato di momentanea barbarie:
una carestia, una guerra di annientamento totale sembrano sottrarle ogni mezzo di sussistenza:
l’industria, il commercio appaiono distrutti, e perché ? Perché la società ha incorporato troppa civiltà, troppi mezzi di sussistenza, troppa industria, troppo commercio.”

Detto più semplicemente, la riduzione dei costi di produzione e di conseguenza dei prodotti e un miglioramento delle condizioni economiche delle delle masse, fa si che l’offerta, ovvero la presenza sul mercato di un determinato prodotto, superi la domanda, provocando un abbattimento ulteriore del valore delle merci e dei prodotti, e se questo, in una prima fase si traduce in una intensificazione degli scambi, in fasi più avanzate e incontrollate, rischia di saturare il mercato poiché la domanda non è più in grado di assorbire l’eccesso dell’offerta. In questa situazione al limite, l’intero sistema di produzione e di scambi collassa su se stesso perché le produzioni si fermano, i lavoratori perdono il lavoro e non sono più in grado di acquistare beni.

 

Nell’ ultimo quarto dell’ottocento, in seguito alla diffusione su larga scala, in tutta europa e oltre oceano, delle tecnologie introdotte con la prima rivoluzione industriale, si verifica esattamente questo scenario, il mercato non è più in grado di assorbire tutta la ricchezza prodotta e quindi entra in crisi. Quella che si verifica è la prima crisi economica di sovrapproduzione, una novità assoluta rispetto al passato dove, le crisi erano state caratterizzate dall’ elemento della sottoproduzione, ovvero, crisi dovute alla carenza di merci che quindi non erano più sufficienti per soddisfare la domanda dell’intera popolazione.
Questo tipo di crisi sono impossibili da controllare, poiché provocate da diversi fattori esterni, su cui l’uomo, non è in grado di intervenire. Queste crisi possono nascere in seguito ad una carestia, un epidemia, una guerra, un alluvione o una qualsiasi altra calamità naturale, insomma, in seguito ad un qualsiasi evento capace di rendere impossibile l’utilizzo di una fetta considerevole delle produzioni, ed ovviamente situazioni di questo tipo erano più frequenti in passato, rispetto ad oggi.
È tuttavia interessante osservare come, l’effetto negativo più significativo della prima rivoluzione industriale, non sia un collasso del sistema di produzione dovuto all’ eccessivo numero di ex lavoratori inoccupati, ma anzi, l’esatto contrario, ovvero, un collasso del sistema economico, prima locale e poi internazionale, legato all’ eccessiva produzione, che rendendo semplicemente più bassi i costi di produzione, ha permesso un aumento esponenziale della domanda che a sua volta ha aumentato l’offerta, in un circolo vizioso dove, alla fine, il valore dei prodotti finiti è diventato più basso del suo effettivo valore materiale, inteso per dirla alla Marx come la sommatoria del valore delle merci più il valore del lavoro e il surplus che va a costituire il profitto dell’imprenditore.

 

Dinamiche analoghe, anche se attenuate dal volume notevolmente più basso delle produzioni, e quindi non in grado di provocare la catastrofica “sovrapproduzione” sono presenti in tutte le precedenti rivoluzioni tecnologiche e sociali, fin dall’ invenzione dell’aratro a buoi che permise ad un singolo uomo, in una sola giornata, di compiere, senza troppa fatica, quello che prima era il lavoro di più uomini, e questi elementi sono presenti anche nella nostra rivoluzione industriale.
Diversamente dalla prima rivoluzione industriale però, la possibilità della sovrapproduzione rappresenta oggi, una minaccia ben nota, contro cui prendere i dovuti provvedimenti e le dovute precauzioni, consapevoli del fatto che essa rappresenta un difetto fondativo del sistema economico capitalista, un errore di fondo al quale probabilmente non esiste una soluzione definitiva, ma solo varie ed eventuali correzioni ed accorgimenti in corso d’opera.

dcus-1

In conclusione, la tendenza all’ informatizzazione e alla robotizzazione del nostro tempo, analogamente alla tendenza ottocentesca alla meccanizzazione dei sistemi di produzione non si configura come l’inizio della fine del lavoro umano, ma anzi, spalanca una porta su innumerevoli possibilità, possibili ad un unica condizione, un progressivo avanzamento delle conoscenze, delle capacità e delle competenze dei lavoratori non specializzati, che viaggi parallelamente all’ avanzamento tecnologico. Questo avanzamento avrà come effetto il sacrificio e la perdita di determinati saperi e conoscenze, oggi fondamentali per alcuni lavori manuali, in favore di nuove conoscenze e nuovi saperi, oggi considerati “avanzati” e destinati a diventare “basilari”.
Così come i primi agricoltori hanno smesso di arare a mano il proprio campo, per imparare a controllare aratri e buoi, così come i tessitori ottocenteschi hanno smesso di filare a mano i propri tessuti per imparare ad utilizzare la spoletta volante, così come gli operai del primo novecento hanno perso la visione generale del manufatto a cui lavoravano, per diventare parte di una più ampia e complessa catena di montaggio, così i lavoratori non qualificati del ventunesimo secolo, dovranno rinunciare ad alcuni saperi per acquisirne di nuovi, legati al mondo informatico e l’utilizzo dei computer e della robotica.