Chat GPT e LLama hanno superato il Test di Turing? No, ancora nessuna IA ha superato il Test di Turing (Aggiornato ad aprile 2025)

Secondo uno studio pubblicato su arXiv, ChatGPT e Llama3.1-405B avrebbero superato il test di Turing. Ma è davvero così? LA risposta semplice è no, anche perché, contrariamente a quanto riferito dai ricercatori, quello eseguito non è il test di Turing e non ci vengono forniti dati a sufficienza per capire se effettivamente il test è stato superato o meno.

Per i più volenterosi, l’articolo è stato pubblicato da Cameron R.Jones e Benjamin K.Bergen, entrambi ricercatori al dipartimento di scienze cognitive dell’università di San Diego, e per chi volesse recuperare l’articolo integrale, vi lascio qui il link (è pubblico)

Visto che da circa 15 anni, periodicamente inizia a circolare la notizia che una IA ha superato il test di Turing, ma poi, andando a vedere, non è proprio così, e semplicemente qualcuno ha male interpretato alcuni dati, autoconvincendosi che l’IA di turno avrebbe potuto superarlo, senza però mai fornire alcun dato sul test, e senza spiegare chi, come, dove, quando, ecc ha eseguito il test, (tra l’altro fornendo dei punteggi e percentuale di successo che non hanno alcun senso), ho deciso di scrivere un articolo che aggiornerò periodicamente, in cui andrò a spiegare cos’è il test di Turing, come funziona, e perché quello che ci viene spacciato per “test di Turing” in realtà non è il test di Turing.

Alan Turing e il suo esperimento teorico

Alan Turing è stato un matematico britannico, da molti considerato uno dei padri dell’informatica modera, mosso da alcune idee radicali, molto all’avanguardia per il suo tempo, è grazie al suo genio, è riuscito negli anni 40, grazie ad una macchina e ad alcune intuizioni, a bucare i codici Nazisti e superare Enigma. Ma questa è un altra storia.

Ciò che importa è che, dopo la guerra, gran parte del lavoro di Turing e del team di Bletchley Park venne “insabbiato” e messo sottochiave almeno fino ai primi anni 2000, inoltre Turing, per via della sua omosessualità, che nell’Regno Unito dell’epoca era illegale, venne sottoposto a castrazione chimica, cosa che ebbe diversi effetti collaterali sulla sua salute e gli causò una forte depressione.

Negli anni 50 sostanzialmente Turing era un autentico eroe di guerra, completamente sconosciuto al popolo britannico, abbandonato dallo stato e per lo più perseguitato per il suo orientamento sessuale e le sue idee, e quando dico perseguitato, intendo dire che era tenuto sotto strettissima osservazione perché sostanzialmente era un civile in possesso di segreti militai, di grandissimo valore.

In questo contesto Turing, nel 1950, cinque anni dopo la fine della guerra e quattro anni prima che si togliesse la vita, pubblica un articolo sulla rivista Mind, intitolato “Computing Machinery and Intelligence” in cui esponeva un esperimento teorico chiamato “The imitation game” con cui cerca di capire quanto una macchina riesce ad imitare il pensiero.

Col tempo il gioco dell’imitazione, è stato ribattezzato in Turing Test/Test di Turing, e si è diffusa l’idea che tale test cercasse di rispondere alla domanda “le macchine possono pensare?” In realtà, basta aprire l’articolo e nel primo paragrafo scopriamo che Turing non si chiede se “le macchine possono pensare” ma propone una domanda più precisa e meno ambigua.

A questo punto Turing propone una nuova formulazione spiegando qual è l’obbiettivo del suo test. Si tratta in sostanza di un indagine statistica che prevede la ripetizione di un gioco di deduzione per 2*X volte, durante il primo ciclo di gioco ci saranno tre giocatori umani, durante il secondo ciclo invece, uno dei giocatori, con un ruolo ben preciso, sarà sostituito da una macchina.

Cerchiamo allora di capire come funziona il Test di Turing, e quando possiamo dire che una “macchina” ha superato il test di Turing, e soprattutto, se possiamo effettivamente dire che una macchina ha superato il test di Turing.

Come funziona il Test di Turing

Abbiamo tre giocatori, un uomo A, una donna B e un interrogatore C che può essere di entrambi i sessi. L’obbiettivo di C sarà quello di determinare chi tra i due è l’uomo e chi la donna, l’obbiettivo di A sarà quello di far sbagliare C mentre l’obbiettivo di B sarà quello di aiutare C.

Per ridurre al minimo le interferenze e far sì che le deduzioni di C si basino esclusivamente sulle risposte ricevute, durante il gioco C non avrà contatti diretti con A e B, e riceverà le risposte alle sue domande in forma scritta.

C potrà porre domande sia ad A che a B e potrà ripetere le stesse domande tutte le volte che vorrà. A e B invece, potranno sia dire la verità che mentire.

A questo punto può iniziare l’imitation game.

L’interrogatore C ripeterà il gioco diverse volte, con vari A e B, ed i risultati ottenuti verranno registrati, in modo da avere una media delle volte che ha risolto correttamente il gioco, e le volte che è stato ingannato. Dopo un certo numero di tentativi tuttavia, A verrà sostituito da una macchina, e il gioco continuerà, l’interrogatore farà anche in questo caso diversi tentativi e verranno registrate le volte in ha risolto il gioco e le volte in cui è stato ingannato.

Nell’articolo Turing si chiede “Cosa accadrà quando una macchina prenderà la parte di A in questo gioco? Sostituendo all’Uomo una macchina, l’interrogatore, sarà tratto in inganno tante volte come quando al gioco partecipavano un uomo e una donna?

Come abbiamo già detto, test di Turing, altro non è che un indagine statistica, in cui compariamo i risultati dell’interrogatore ottenuti giocando contro un umano e contro una macchina, aiutato in entrambi i casi da una donna umana.

Come si supera il Test di Turing?

Molto spesso, quando leggiamo articolo in cui ci dicono che una data IA ha superato il test di Turing, in realtà, ci stanno dicendo che l’interrogatore non è riuscito a determinare chi fosse l’Uomo e chi la Donna. Ma questo dato, da solo, senza uno storico di tentativi, dei successi e fallimenti, registrati da quello stesso interrogatore, non vale assolutamente nulla. E anzi, ha la stessa rilevanza di una partita ad Akinator/20Questions, o Indovina chi, anche perché in effetti il gioco alla base dell’imitation game c’è proprio “20 questions”, letteralmente un gioco di deduzione per bambini riadattato e rielaborato.

Purtroppo però, spesso è sufficiente che l’IA riesca ad ingannare l’interrogatore, affinché ci venga detto che l’IA in questione ha “superato” il test di Turing.

ChatGPT ha superato il test di Turing?

Ora che sappiamo come funziona il test possiamo entrare nel merito dell’articolo di Cameron R.Jones e Benjamin K.Bergen, e capire se effettivamente ChatGPT e LLama hanno superato il test di Turing.

E già qui bisogna fare la prima distinzione. Secondo quanto riportato dai media, Chat GPT 4.5 è riuscito ad “ingannare” l’esaminatore, nel 73% dei casi, in sessioni da 5 minuti mentre Llama 3.1-405B ci è riuscita nel 56% dei casi.

Questi risultati sono sicuramente interessanti, ma non significano nulla, perché come abbiamo visto, non è importante quante volte l’IA riesce ad ingannare l’esaminatore, e quel dato ha senso solo se affiancato da altri dati, come ad esempio la percentuale di successo e fallimento, registrata da quegli stessi esaminatori nell’individuare l’Uomo e la Donna, e non solo l’IA.

I primi dati “utili” ci vengono forniti a pagina 5 dell’articolo e mostrano la percentuale di successo di diversi modelli IA e ci viene detto che una percentuale di successo nell’ingannare l’esaminatore, superiore al 50% porta sostanzialmente al superamento del test di turing.

Ma come abbiamo visto, non è così che funziona il test di Turing.

Nell’articolo ci vengono forniti molti altri dati, informazioni sulle domande, sui modelli linguistici esaminati, sui prompt utilizzati per la configurazione delle diverse IA affinché questa si comportassero come umani, e non fraintendetemi, sono tutti dati estremamente interessanti e sicuramente utilissimi per molte ragioni, ma che non ci dicono assolutamente nulla sul test di Turing. Di seguito un esempio di prompt utilizzato per “istruire” l’IA.

Come abbiamo visto, il test di Turing, si divide in due fasi, ma in questo articolo, non ci parlano della fase 1, e i ricercatori hanno eseguito solo la fase due. Il problema è che la fase 1 del test di Turing è fondamentale per la sua corretta esecuzione.

Nella prima fase, come abbiamo già visto, l’esaminatore “gioca” con degli umani, un uomo e una donna, l’uomo prova ad ingannarlo mentre la donna prova ad aiutarlo, e l’esaminatore deve individuare l’uomo. Questa fase serve per determinare un valore di riferimento che riguarda la percentuale di successo dell’esaminatore. Solo una volta ottenuto questo dato, è possibile sostituire l’uomo con l’IA mentre la donna che dovrà aiutarlo rimarrà un umana.

A questo punto, si esegue una nuova serie di test, tante partite quante ne sono state “giocate” contro umani, e si compareranno i dati finali.

Se la percentuale di successo contro l’IA, con un certo margine d’errore, vicina alla percentuale di successo registrata contro giocatori Umani, allora, e solo allora, il test può dirsi superato.

In questo articolo tuttavia, questa comparazione manca totalmente. Non vi è alcun riferimento a test comparazioni e test in cui sono stati coinvolti tre “giocatori” umani. L’unico dato effettivo che ci viene fornito da questo articolo è la percentuale di “successo” registrata dall’esaminatore contro l’IA. Un dato che, come abbiamo già detto innumerevoli volte, nell’ottica del test di Turing, non vuol dire assolutamente nulla.

Conclusione

L’articolo di Jones e Bergen è sicuramente molto interessante, ma a differenza di quanto riportato dai media, non ci dice che ChatGPT e LLama hanno superato il test di Turing, e con i dati che vengono forniti non è possibile determinarlo.

È un po’ come se un vostro amico vi invitasse a cena da lui dicendo che sa preparare uno dei piatti di Cannavacciuolo e che non riuscireste a sentire la differenza tra il suo piatto e quello di Cannavacciuolo, vi fa assaggiare la sua versione del piatto, ma voi non avete mai mangiato da Cannavacciuolo, non sapete che sapore ha il piatto originale.

Come fate a dire se il piatto del vostro amico è uguale o diverso da quello di Cannavacciuolo? Semplicemente non potete.

Fonti

Per chi fosse interessato vi lascio di seguito l’articolo originale di Alan Turing del 1950, sono solo 22 pagine, ma il funzionamento e gli obbiettivi del test sono sostanzialmente spiegati nelle prime 3 pagine. E l’articolo di Jones e Bergen

Computing machinery and intelliogence By A. M. Turing
ChatGPT-4 in the Turing Test: A Critical Analysis

DeepSeek ha fatto scoppiare la bolla IA?

Che prima o poi sarebbe successo, tutto il mondo lo sapeva, ma così presto e così bene nessuno se lo aspettava. Con queste parole si apre Giai Phong, di Eugenio Finardi, una canzone che parla della guerra del Vietnam, inquadrandola per quella che era realmente, una guerra civile alimentata da interessi stranieri. E personalmente trovo che sia un ottima “metafora” per riassumere ciò che è successo negli ultimi giorni nel panorama tech e finanziario, legato alle IA.

La mattina del 20 gennaio 2025 la startup cinese Deepseek, fondata da Liang Wenfeng, classe 1985, ha lanciato il nuovo modello R1, un modello linguistico ad alte prestazioni in grado di competere, e secondo alcuni persino più performante, di ChatGPT 4o di OpenAI, il colosso statunitense leader del settore fondato da Sam Altman.

Le performance di DeepSeek sono state effettivamente sorprendenti e questo è stato visto come un campanello d’allarme per molti investitori, poiché questo modello sembrerebbe essere stato sviluppato, addestrato e attualmente alimentato, con finanziamenti nettamente inferiori a quelli richiesti da ChatGPT.

Da qui due domande: Quello delle IA è davvero, come si temeva, una bolla pronta ad esplodere e DeepSeek ha acceso la miccia?

Il mercato delle IA

Il mercato delle IA si compone di diversi elementi di cui le società IA che stanno monopolizzando il dibattito pubblico, sono in realtà solo la punta dell’Iceberg, mentre più in profondità, ci sono almeno due segmenti di mercato, il primo, forse il più dibattuto, è quello legato all’hardware in particolare aziende produttrici di GPU e più a monte il mercato dei chip logici e microprocessori, che comprende aziende come AMD, Nvidia, e TMSC. L’altro grande segmento invece, forse quello più profondo, è legato ai dataset, i pacchetti di dati, i database, fondamentali per l’addestramento delle IA, in questo senso, coinvolge aziende come Oracle e Snowflake Frasnk Slootman.

Scavando ancora più in profondità emergono almeno altri due segmenti di mercato, quello energetico, fondamentale per il funzionamento dei calcolatori e dei server dati, e quello delle materie prime, fondamentale quest’ultimo per la produzione di Chip. E, visto che le materie prime, le aziende che producono microprocessori e le società che utilizzano GPU su larga scala, non condividono propriamente la stessa collocazione geografica, il settore trasporti viene coinvolto in maniera trasversale, in particolare il trasporto marittimo dall’Asia all’America che quindi rende anche il canale di Panama, un target strategico per il mercato delle IA.

Il lancio di DeepSeek R4 ha causato un vero e proprio terremoto finanziario, facendo crollare diversi titoli quotati a WallStreet, per lo più titoli di aziende vicine ad OpenAI e fortemente interconnesse con il mercato statunitense delle IA, e questo terremoto ha spinto molti a chiedersi se la temuta bolla stesse per esplodere.

Tra i molti che hanno investito, in vari asset legati al settore, vi è anche Warren Buffet, uno dei più celebri e importanti investitori, soprannominato l’Oracolo di Omaha per la sua incredibile abilità nell’intuire e prevedere l’evoluzione dei mercati finanziati, e ad Ottobre 2023, Warren Buffet, o più precisamente la Berkshire Hataway, la sua società di investimento, ha acquisito una quota del 6,46% di Snowflake Frank Slootman, stimando una crescita del 200% entro il 2027.

Snowflake Frank Slootman, come anticipato, è una società che si occupa sostanzialmente di dati, fornendo servizi id archiviazione e analisi basati su cloud, e generalmente definiti data as a service.

Non solo Hatawey, ma anche Morgan Stanley, JPMorgan e altre banche di investimento, nel quarto trimestre del 2023 e nel primo trimestre del 2024, hanno fatto a gara per accaparrarsi una quota di Snowflake e altre società specializzate in archiviazione e analisi dei dati. Il motivo è che queste società gestiscono una materia prima fondamentale per lo sviluppo delle IA, ovvero i dati.

La potenza di calcolo, per quanto anch’essa essenziale, per i grandi modelli linguistici, è invece sempre meno centrale, perché grazie ai nuovi processi di sintesi e distillazione dei dati, è possibile sviluppare modelli estremamente verticali, in grado di performare meglio dei grandi modelli in un caso d’uso specifico, richiedendo una potenza di calcolo nettamente inferiore.

Questo concetto in realtà era già emerso nei mesi scorsi con l’arrivo di modelli più compatti e verticali, in grado di girare localmente, ma DeepSeek ha alzato l’asticella, proponendo R4, un LLM, un grande modello linguistico, che basa il proprio funzionamento sulla distillazione dei dati, realizzando in sostanza un grande modello che è la summa di diversi modelli specializzati, tutti sotto un unico ombrello.

L’effetto, un IA che apparentemente ha stravolto il mercato e fatto tremare wall street, ma se siamo qui a parlarne, evidentemente non è solo questo e sotto c’è dell’altro.

Cosa ha scosso realmente Wall Street?

Un IA cinese, più economica di Chat GPT fa il proprio debutto, e Wall Street va in crisi, almeno in apparenza. Se si guarda ai vari titoli finanziari si osserverà che in realtà ad essere stati colpiti dallo scossone DeepSeek, sono state prevalentemente società di hardware, AMD, Nvidia, TSMC, società che si trovano sotto il fuoco incrociato di Cina e USA. Da un lato col divieto di commercializzare i chip di queste società in Cina, e dall’altro con l’amministrazione Trump, sempre più orientata a premiare chi produce in USA e penalizzare chi importa negli USA, e la maggior parte delle società coinvolte nella “crisi” importano negli USA, producono anche, ma principalmente importano. Società come Snowflake Frank Slootman o Oracle, legate all’archiviazione dei dati invece, non hanno subito alcun contraccolpo.

Non solo, a pochi giorni dalla crisi, tra 27 e 28 gennaio, il presidente Trump, ha annunciato che potrebbe portare i dazi nel settore chip, anche al 100%. Ipotesi che era nell’aria già da tempo e che ora sembra essere stata ufficialmente ufficializzata, segnando un duro colpo a TSMC, la holding di Taiwan, leader del settore chip, che fornisce microprocessori e chip logici all’intero pianeta. Azienda contro la quale Trump si era già scagliato la scorsa estate, in piena campagna elettorale, quando tra le altre cose propose che Taiwan dovesse pagare gli USA per la protezione ricevuta.

è dunque solo una coincidenza? una sovrapposizione di fattori, che ha portato Deepseek a debuttare poche ore prima dell’insediamento di Donald Trump alla casa bianca, e ha portato ad un crollo del mercato IA, a circa una settimana dal suo insediamento? Ovviamente no.

In realtà i due scenari non si escludono a vicenda, e anzi, si completano e rafforzano a vicenda.

Da un lato DeepSeek, ha messo in evidenza l’ondata speculativa legata agli investimenti sulle IA, portando così ad un rallentamento dei finanziamenti globali in un settore che ha assorbito più risorse economiche di quante potesse effettivamente utilizzarle, detto più semplicemente, ha sprecato molte risorse finanziarie, attraverso innumerevoli progetti IA senza alcuna reale utilità e per i quali non c’era alcuna domanda.

La bolla IA è esplosa? Esploderà?

Da quando nel 2022 OpenAI ha presentato al mondo la prima versione di ChatGPT, in molti si chiedono se sia una bolla destinata ad esplodere o se invece rappresenti il prossimo passo per lo sviluppo tecnologico, e come è stato negli anni 90 per la bolla dei “dot com”, un ondata speculativa che vide l’apparizione di innumerevoli siti web, che puntavano ad usare la rete per cambiare il mondo, alla fine, solo pochi di quei siti sono sopravvissuti, solo pochi di quegli investimenti hanno realmente fruttato, mentre milioni di altri andavano in fumo portando con se miliardi di dollari.

Lo stesso sta accadendo per il mercato delle IA, e DeepSeek, non ha fatto altro che spingere sull’acceleratore, mentre dall’altra parte OpenAI (per sua stessa ammissione) procede ancora a rallentatore.

Nell’estate 2024 Sam Altman, founder e CEO di OpenAI aveva infatti annunciato che la tecnologia in loro possesso era molto più avanzata di quanto non sembrasse dai software commercializzati, ma, preferivano rilasciarla per gradi perché il mondo non era pronto, e soprattutto, per evitare un terremoto finanziario. Quello stesso terremoto che Altman ha cercato di evitare tuttavia, alla fine è arrivato comunque, innescato da DeepSeek, uno dei principali rivali asiatici di OpenAI.

Un rivale che lo stesso Sam Altman, considera impressionante, soprattutto per il rapporto qualità prezzo.