Meta ha annunciato l’inizio dell’addestramento della propria intelligenza artificiale, Meta IA, utilizzando dati pubblici degli utenti delle sue piattaforme social nell’Unione Europea, ma cosa significa e quali implicazioni ha questa decisione per il futuro dell’IA e per la nostra Privacy?
Cerchiamo di capire che differenza c’è tra dati pubblici e privati, e cosa può effettivamente usare Meta senza violare le leggi UE.
Cosa sono i dati pubblici di Meta?
Partiamo dai dati pubblici, ovvero i dati che teoricamente Meta può utilizzare per l’addestramento delle proprie IA.
L’Unione Europea, a differenza degli USA, è molto restrittiva in merito all’utilizzo che si può fare dei dati degli utenti, soprattutto per quanto riguarda i dati privati. In teoria l’addestramento dell’IA tramite i dati pubblici, è possibile proprio perché quei dati sono “pubblici” e quindi possono essere utilizzati da chiunque, ma quali sono i dati pubblici?
Per quanto riguarda Facebook i dati pubblici sono sostanzialmente quei dati visibili da chiunque, quindi alcuni dati del profilo (indipendentemente dal fatto che il profilo sia pubblico o privato) ed i post contrassegnati come “visibili a tutti”. Questi post sotto il nome dell’utente, mostrano un mappamondo.

Su facebook esistono tre tipologie di post, ovvero post pubblici, come quello mostrato sopra, post non pubblici, ma comunque visibili ai propri amici, e post privati.


I post non pubblici, sono contrassegnati dall’icona di due omini, mentre i post privati sono contrassegnati da un lucchetto. I post privati sono visibili solo ed esclusivamente all’utente che li ha pubblicati.
Facebook, mette a disposizione altre modalità di pubblicazione, come ad esempio la possibilità di creare delle liste di contatti specifici (persone che si hanno tra gli amici), che sostanzialmente vanno a limitare ulteriormente le persone che possono vedere quei post, in un numero compreso tra tutti gli amici e solo il creatore del post.
Questo discorso tuttavia, vale solo per i post degli utente, non si applica invece alle pagine facebook.
A differenza dei profili utente, i post delle pagine sono sempre “visibili a tutti” e non è possibile limitare la visibilità dei post.

Oltre ai post delle pagine, anche i commenti ai post di una pagina, sono sempre pubblici, mentre la condivisione di un post di una pagina, è sostanzialmente un post sul proprio profilo utente, e può non essere pubblico.

Per Instagram il discorso è più semplice, un profilo Instagram può essere “pubblico” o “privato”, se è pubblico, tutti i suoi post saranno pubblici, a meno che non si scelga di condividerli solo con la lista di “amici stretti” in quel caso, saranno condivisi solo con una lista ristretta di contatti e non saranno pubblici. Se il profilo è provato, tutti i suoi post saranno privati, e lo stesso vale per Threads.
La visibilità di un post, ovvero se questi è pubblico o privato, può essere modificata dall’utente, in qualsiasi momento, ogni volta che lo desidera.
I post pubblici, come abbiamo visto sono visibili a tutti, e per tutti si intende proprio tutti, sono infatti post che possono essere visti anche da chi non è iscritto al social.

Non c’è alcuna differenza tra post testuali, immagini o video, qualunque tipo di post può infatti essere pubblico, non pubblico o privato. Questo stesso discorso vale anche per le Stories di Facebook e Instagram
Per quanto riguarda Whatsapp?
A differenza di Facebook, Instagram e Threads, che sono veri e propri social network, Whatsapp è in realtà un app di messaggistica, con elementi social, motivo per cui ho preferito separare Whatsapp (e in realtà anche Messenger) da Facebook, Instagram e Threads.
Come sappiamo anche Whatsapp permette di pubblicare stories come aggiornamento di status e, come possiamo vedere, possiamo scegliere di condividerle con i propri contatti, con alcuni contatti o escludendo alcuni contatti.

Tecnicamente non ci sono “post pubblici” su Instagram, e requisito fondamentale per poter vedere una “stories” di un utente, è avere il suo numero di telefono. Lo stesso vale per i canali whatsapp o Broadcast, si tratta di “canali” uno a molti, in cui solo chi lo gestisce può inviare messaggi, mentre gli altri utenti possono solo leggerli. Tecnicamente anche i canali Broadcast non sono pubblici.
All’atto pratico su Whatsapp non ci sono dati pubblici che Meta può utilizzare per l’addestramento di MetaIA.
Perché a Meta servono i dati degli utenti per addestrare Meta IA?
L’addestramento delle IA al momento, è una combinazione di due fattori, dati e potenza di calcolo, la potenza di calcolo è data dall’uso massivo di GPU, mentre i dati sono forniti da importanti datacenter, tuttavia, secondo quanto riportato da diversi sviluppatori di IA tra cui OpenAI, Xai e lo stesso Meta, sostanzialmente le proprie IA hanno già acquisito tutti i dati presenti nei grandi dataset, in pratica quindi, non hanno altri dati da fornire ai modelli IA per l’addestramento.
La carenza di dati è un enorme problema che i diversi sviluppatori hanno cercato e stanno cercando di superare in diversi modi, e una delle vie per acquisire nuovi dati è sfruttare quelle risorse che producono la maggior quantità di dati digitali, ovvero gli utenti dei social media.
Non sorprende quindi se Bytedance usa i dati dei video di TikTok per addestrare le proprie IA, xAI usa i dati degli utenti di X, e Meta usa i dati dei propri social, per addestrare i propri modelli linguistici di grandi dimensioni.
Questa strada potrebbe in effetti fornire un vantaggio competitivo nel futuro delle IA a chi possiede tali piattaforme (la vendita di X ad xAI da parte di Elon Musk, in quest’ottica acquista un altro significato), tuttavia, è anche vero che questi dati per quanto possano essere in costante aumento, non è detto che siano dati utili o di qualità.
Si pensi al contenuto medio di Facebook, fortemente influenzato da ideologie politiche, teorie cospirazioniste e generalmente non formulato correttamente. Questi dati, nel lungo periodo, potrebbero infatti compromettere il background di conoscenze di una IA. Del resto si sa, la quantità non è detto che significhi qualità.
Il futuro delle IA
Potremmo essere giunti ad un momento cruciale nello sviluppo di IA, e la decisione di Meta di acquisire i dati pubblici dei propri utenti, per l’addestramento delle proprie IA ci fornisce un segnale importante.
Il futuro della competizione in campo di IA passa anche, ma non solo, dalla disponibilità di dati, ma quei dati sono sia una risorsa che una minaccia al futuro delle IA.
Le future generazioni di IA dovranno affinare la propria capacità di analisi e di elaborazione, sarà necessaria una sempre maggiore compressione dei modelli linguistici, in modo da avere IA sempre più compatte, leggere e performanti, anche senza internet. Bisognerà rivedere il modo in cui si archiviano i dati, e il modo in cui quei dati vengono elaborati, e non è detto che la maggiore potenza di calcolo data dall’utilizzo di tante GPU sarà una risorsa fondamentale per l’addestramento nel lungo periodo (non fraintendetemi, la potenza e velocità di calcolo sarà sempre una risorsa essenziale).