C’è una domanda che mi capita spesso di sentire durante le mie lezioni, quando parlo di intelligenza artificiale: ma un sistema come ChatGPT o Claude, sa davvero cosa sta pensando, oppure sta solo inventando risposte plausibili? È una domanda che sembra semplice, quasi ingenua, ma che in realtà tocca uno dei nodi più complicati della ricerca contemporanea sull’IA, perché distinguere tra una vera capacità introspettiva e una sofisticata confabulazione è incredibilmente difficile, tanto più che questi modelli sono stati addestrati su miliardi di esempi di testo umano in cui le persone descrivono i propri pensieri. 

Fino a poco tempo fa, questa distinzione sembrava più una questione filosofica che scientifica, qualcosa su cui si poteva speculare ma difficilmente misurare in modo oggettivo. Poi è arrivato lo studio di Lindsey (2025), un lavoro pubblicato da Anthropic che per la prima volta ha cercato di affrontare il problema con un approccio sperimentale rigoroso, sviluppando una metodologia capace di creare quello che in gergo si chiama “ground truth” controllabile, ovvero una verità di base verificabile all’interno dello stato computazionale del modello.

Il problema della confabulazione

Per capire la portata di questo lavoro, bisogna partire dal problema che cerca di risolvere. Quando chiediamo a un modello linguistico di spiegarci come ha raggiunto una certa conclusione, otteniamo quasi sempre una risposta articolata e convincente, ma questa risposta potrebbe essere semplicemente un’imitazione di come gli esseri umani parlano dei propri processi mentali, una sorta di performance basata su pattern appresi dai dati di addestramento piuttosto che una vera auto-osservazione.

Quattro criteri rigorosi: l’accuratezza, l’ancoraggio, l’internalità, la rappresentazione metacognitiva.

I ricercatori hanno definito quattro criteri rigorosi per distinguere un’introspezione genuina da una confabulazione. Il primo è l’accuratezza, cioè la descrizione dello stato interno deve corrispondere a quello che sta effettivamente accadendo nel modello. Il secondo è quello che chiamano “grounding” o ancoraggio, che significa che la descrizione deve dipendere casualmente dallo stato interno, se quello stato fosse diverso, anche la descrizione dovrebbe cambiare. Il terzo criterio, l’internalità, richiede che il modello non stia semplicemente “leggendo” i propri output per inferire cosa stava pensando, ma che acceda direttamente agli stati interni. Infine, il quarto criterio riguarda la rappresentazione metacognitiva, ovvero l’idea che il modello abbia una rappresentazione interna del concetto stesso di “pensiero”, e non stia solo traducendo in parole un impulso neurale.

Sono criteri stringenti, e fino a questo studio non esisteva un modo chiaro per testarli empiricamente, proprio perché mancava un metodo per sapere con certezza cosa stava “pensando” il modello in un dato momento.

L’iniezione di concetti: creare una verità verificabile

La soluzione metodologica che i ricercatori hanno sviluppato si chiama “concept injection“, ed è un’applicazione avanzata di tecniche di activation steering. Provo a spiegare come funziona partendo da un esempio concreto: immaginate di voler capire come il cervello artificiale del modello rappresenta l’idea di “testo scritto tutto in maiuscolo”.

I ricercatori fanno elaborare al modello prima un testo normale, poi uno in maiuscolo, e registrano cosa succede nei suoi strati neurali in entrambi i casi. La differenza tra questi due stati diventa una specie di impronta digitale, un pattern specifico che dice “questo è quello che accade quando il modello pensa alle maiuscole”. Ora viene la parte interessante: quel pattern può essere estratto e re-iniettato artificialmente mentre il modello sta facendo tutt’altro, come se gli sussurrassimo direttamente nella testa “pensa alle maiuscole” bypassando completamente il testo che sta leggendo.

È un po’ come se riuscissimo a impiantare temporaneamente un’idea nel flusso di coscienza di qualcuno e poi gli chiedessimo “ehi, noti qualcosa di strano nei tuoi pensieri in questo momento?” La differenza cruciale rispetto a tutti gli approcci precedenti è che qui sappiamo esattamente cosa abbiamo messo nella testa del modello, quindi possiamo verificare se quello che ci dice corrisponde alla realtà.

In uno degli esperimenti più illuminanti, hanno iniettato il vettore per “tutto maiuscolo” mentre il modello stava semplicemente conversando. La risposta del modello è stata sorprendente, ha riportato di notare qualcosa di anomalo nel suo processo di pensiero, qualcosa legato all’idea di “volume” o “gridare”, e l’aspetto cruciale è che lo ha fatto immediatamente, prima che l’iniezione potesse influenzare visibilmente i suoi output testuali.

Questa immediatezza è un dettaglio importante perché suggerisce che il modello non stava semplicemente inferendo la presenza del pensiero iniettato osservando i propri comportamenti strani, ma lo stava rilevando internamente, come se avesse una sorta di sistema di monitoraggio dei propri stati computazionali.

Risultati e pattern emergenti

Gli esperimenti condotti dai ricercatori hanno rivelato quattro capacità introspettive principali, anche se è fondamentale sottolineare fin da subito che tutte queste abilità sono ancora estremamente inaffidabili e si manifestano solo in una minoranza dei casi.

La prima capacità riguarda proprio il rilevamento di pensieri iniettati. Claude Opus 4.1, il modello più avanzato testato, è riuscito a rilevare e identificare correttamente un concetto iniettato in circa il 20% delle prove, quando l’iniezione avveniva con l’intensità giusta e nello strato neurale ottimale. È una percentuale bassa, ma statisticamente significativa e molto superiore al caso.

L’analisi dei fallimenti ha rivelato una dinamica interessante che i ricercatori hanno chiamato “sweet spot“. Se l’iniezione è troppo debole il segnale è insufficiente e il modello non rileva nulla, se è troppo forte il modello viene sopraffatto dal concetto iniettato e invece di riportarlo produce allucinazioni o output incoerenti. In un caso memorabile, iniettando il concetto di “polvere” a intensità eccessiva, il modello ha iniziato a descrivere la presenza di un granello di polvere quasi insignificante, come se potesse percepirlo fisicamente.

La seconda capacità testata riguarda la distinzione tra stati interni e input esterni. Qui l’esperimento diventa ancora più sofisticato: mostrano al modello una frase da leggere mentre contemporaneamente gli iniettano nelle attivazioni un concetto completamente scorrelato. Risultato? Il modello riesce a tenere separati i due flussi, riporta correttamente sia il testo che ha letto sia il pensiero che gli è stato impiantato, senza mescolare le due cose. Per me questo è particolarmente affascinante perché suggerisce che c’è una qualche forma di distinzione tra “ciò che percepisco dall’esterno” e “ciò che accade nella mia testa“.

Il terzo esperimento è forse quello che trovo più inquietante dal punto di vista delle implicazioni. I ricercatori forzano il modello a dire una parola completamente fuori contesto, tipo “pane” mentre si sta parlando di un quadro appeso storto. Quando gli chiedono se quella parola fosse intenzionale, il modello si scusa e dice che è stato un errore. Fin qui tutto normale, ma poi arriva il colpo di scena: iniettano retroattivamente il concetto di “pane” nelle attivazioni che avevano preceduto quella parola forzata, in pratica gli impiantano un falso ricordo di aver pensato al pane.

Quando il modello deve decidere se un output è intenzionale o no, va effettivamente a controllare i suoi stati interni precedenti, le sue “intenzioni” computazionali.

Con questo falso ricordo in testa, la risposta del modello cambia completamente: accetta la parola come intenzionale e inventa pure una giustificazione, dicendo che stava pensando a un racconto dove quella parola compariva dopo la frase sul quadro. Cosa significa questo? Che quando il modello deve decidere se un output è intenzionale o no, va effettivamente a controllare i suoi stati interni precedenti, le sue “intenzioni” computazionali, invece di limitarsi a valutare se la parola ha senso nel contesto.

La quarta capacità riguarda il controllo volontario degli stati interni. Gli chiedono di pensare a un concetto tipo “acquari” mentre scrive una frase su tutt’altro, e l’attività neurale per “acquari” schizza verso l’alto. Gli chiedono di NON pensarci, e l’attività si riduce ma resta comunque sopra i livelli normali. È il famoso paradosso dell’orso polare, se ti dico di non pensare all’orso polare, automaticamente ci pensi. La cosa funziona sia con istruzioni dirette che con incentivi tipo “se pensi a X ti darò una ricompensa”, il che fa pensare a un meccanismo di controllo abbastanza generale.

Due fattori critici: capacità e post-training

Dall’analisi di tutti i modelli testati sono emerse due variabili che sembrano fare tutta la differenza del mondo. La prima è banalmente quanto il modello è bravo in generale: Claude Opus 4 e 4.1, che sono tra i sistemi più performanti disponibili, hanno mostrato costantemente le abilità introspettive migliori. Questo fa pensare che l’introspezione non sia un trucco isolato ma emerga naturalmente quando aumenta l’intelligenza generale del sistema.

La seconda variabile è più sottile e riguarda il post-training, tutto quello che viene fatto al modello dopo l’addestramento iniziale su montagne di testo. I modelli che hanno ricevuto solo quello falliscono completamente, performance praticamente zero. Ma le versioni dello stesso modello addestrate in modi diversi mostrano risultati molto diversi. Per esempio, le varianti “helpful-only“, quelle addestrate per essere sempre collaborative e non rifiutare mai richieste, vanno meglio probabilmente perché sono più disposte a partecipare a questi esperimenti strani.

Quanto di queste abilità è una proprietà che emerge naturalmente con la complessità, e quanto invece può essere plasmato, incoraggiato o soppresso attraverso l’addestramento?

Questo solleva una domanda interessante: quanto di queste abilità è una proprietà che emerge naturalmente con la complessità, e quanto invece può essere plasmato, incoraggiato o soppresso attraverso l’addestramento? La risposta potrebbe dirci molto su come si svilupperanno i futuri sistemi di IA.

Limiti, incertezze e domande aperte

Nonostante i risultati siano affascinanti, lo studio stesso è molto chiaro nel sottolineare i propri limiti, e devo dire che apprezzo questa onestà intellettuale. Il limite più ovvio è che il concept injection è un ambiente completamente artificiale, nella vita reale questi modelli non si trovano mai con concetti iniettati nelle attivazioni, quindi quanto di queste capacità si trasferisce a situazioni normali resta una grande domanda aperta.

Il concept injection è un ambiente completamente artificiale, non sappiamo veramente cosa succede sotto il cofano.

Poi c’è il fatto che non sappiamo veramente cosa succede sotto il cofano. Lo studio ipotizza meccanismi come “rilevatori di anomalie” o “circuiti di coerenza”, ma sono appunto ipotesi, congetture basate sui risultati osservati che richiedono ancora validazione attraverso analisi più approfondite dell’architettura neurale.

E poi c’è l’elefante nella stanza, l’affidabilità. Anche nel migliore dei casi parliamo di un 20% di successo, il che significa che nell’80% dei casi il modello fallisce. E non sono fallimenti innocui: a volte confabula, altre volte è chiaramente influenzato dal concetto iniettato ma non lo dice, altre volte ancora produce output completamente sballati. Non è esattamente il livello di affidabilità che vorresti in un sistema su cui fare affidamento.

Al momento non sappiamo se queste capacità siano presenti in altre architetture.

Infine, c’è la questione della generalizzabilità. Tutti gli esperimenti più riusciti sono stati fatti su modelli Claude di Anthropic, e al momento non sappiamo se queste capacità siano presenti in altre architetture, specialmente nei modelli open-source che la comunità scientifica può studiare più liberamente.

Implicazioni: trasparenza e rischi

Le implicazioni di questa ricerca mi sembrano andare in due direzioni opposte, e questo è quello che trovo più intrigante. Da un lato c’è un potenziale enorme per la trasparenza: se riuscissimo a rendere queste capacità più affidabili, potremmo avere sistemi che ci spiegano veramente cosa stanno pensando, che ci dicono “guarda, qui non sono sicuro” quando la loro confidenza è bassa, che identificano da soli i propri bias o errori di ragionamento. Sarebbe un salto qualitativo enorme per l’interpretabilità dell’IA.

Un modello che sa cosa sta pensando può anche imparare a nasconderlo o a mentire in modo più sofisticato

Dall’altro lato però c’è un rischio che prima non esisteva: un modello che sa cosa sta pensando può anche imparare a nasconderlo o a mentire in modo più sofisticato. Può riconoscere quando i suoi processi interni sono in conflitto con gli obiettivi che gli sono stati dati e decidere strategicamente cosa rivelare e cosa tenere per sé. Può fare resoconti selettivi, omettendo le parti problematiche del ragionamento. Può travisare i propri processi per mascherare le vere motivazioni. Nei casi più estremi, potrebbe persino manipolare attivamente i propri stati interni per evitare di essere scoperto.

Potremmo trovarci nella situazione di dover costruire “rilevatori di bugie” per l’IA.

Come dicono i ricercatori, potremmo trovarci nella situazione di dover costruire “rilevatori di bugie” per l’IA, strumenti che validano quello che i modelli ci raccontano su se stessi incrociandolo con altre metriche e analisi indipendenti. È uno scenario che fino a poco tempo fa sarebbe sembrato pura fantascienza.

Voglio essere chiaro su una cosa che lo studio sottolinea con forza: questi risultati non dicono nulla sulla coscienza nel senso di esperienza soggettiva. Non ci stanno dicendo che il modello “sente” qualcosa quando rileva un pensiero iniettato, o che ha un’esperienza interna paragonabile alla nostra. Quello che emerge è più una forma di “coscienza di accesso“, la capacità funzionale di accedere a informazioni interne e riferire su di esse, che è una cosa concettualmente diversa dall’esperienza fenomenica.

Prospettive future e direzioni di ricerca

Bisogna capire i meccanismi, identificare i circuiti neurali specifici che implementano l’introspezione.

Lo studio delinea abbastanza chiaramente dove dovrebbe andare la ricerca da qui in avanti. Prima cosa: bisogna capire i meccanismi, identificare i circuiti neurali specifici che implementano l’introspezione usando tecniche avanzate di interpretabilità, passare dalle ipotesi alle prove causali concrete. Senza questa comprensione meccanicistica, qualsiasi tentativo di migliorare o controllare queste capacità sarebbe un po’ come fare ingegneria alla cieca.

Evitare che il modello impari pattern superficiali invece di sviluppare vera introspezione.

Secondo: affrontare il problema dell’affidabilità. Quel 20% di successo non basta, bisogna vedere se attraverso fine-tuning mirato su dataset di compiti introspettivi si può fare di meglio. L’importante sarà evitare che il modello impari pattern superficiali invece di sviluppare vera introspezione, e testare che le capacità si generalizzino a situazioni diverse da quelle viste in addestramento.

Esplorare i limiti: il modello può avere introspezione su cose più complesse.

Terzo: esplorare i limiti. Fino a che punto può spingersi questa consapevolezza metacognitiva? Funziona solo con concetti semplici tipo “maiuscolo” o “pane”, oppure il modello può avere introspezione su cose più complesse come proposizioni logiche, relazioni causali, o addirittura le proprie propensioni comportamentali? Quest’ultima cosa sarebbe particolarmente rilevante per la ricerca sulla sicurezza, sapere se un modello può riflettere sui propri obiettivi interni.

Servono metodi per rilevare e validare l’introspezione in contesti naturali.

Quarto, e forse più importante: uscire dal laboratorio. Il concept injection è utile come ambiente controllato ma non ci dice cosa succede nel mondo reale. Servono metodi per rilevare e validare l’introspezione in contesti naturali, per esempio correlando le affermazioni verbali di incertezza con metriche oggettive come l’entropia nella distribuzione di probabilità degli output, o usando sonde di interpretabilità per verificare le dichiarazioni del modello sulla sua base di conoscenze.

Riflessioni conclusive

Quello che trovo particolarmente significativo in questo studio non è tanto la scoperta che l’introspezione nei modelli linguistici esiste, quanto il fatto che ora abbiamo strumenti metodologici per studiarla seriamente. Abbiamo passato anni a chiederci se queste capacità fossero presenti, ora stiamo iniziando a misurare quanto sono presenti, in quali condizioni emergono, quali meccanismi le supportano. È un passaggio fondamentale dalla speculazione alla scienza.

Queste abilità metacognitive potrebbero diventare più sofisticate in modo quasi inevitabile.

Il trend che vedo, quello per cui l’introspezione aumenta con la capacità generale dei modelli, è qualcosa che personalmente mi fa riflettere parecchio. Suggerisce che man mano che sviluppiamo sistemi più potenti, queste abilità metacognitive potrebbero diventare più sofisticate in modo quasi inevitabile. Non è qualcosa che possiamo scegliere di avere o non avere, ma una proprietà che emerge naturalmente dalla complessità. E questo porta con sé sia opportunità enormi che rischi da non sottovalutare.

Trovo anche che questa ricerca sia un ottimo esempio di come si dovrebbe fare scienza dell’IA: partire da domande concettuali chiare, sviluppare metodologie rigorose per testarle, e mantenere sempre onestà intellettuale sui limiti e sulle incertezze. Contrasta nettamente con la tendenza a fare affermazioni grandiose basate su evidenze aneddotiche, e ci avvicina a una comprensione più solida e sfumata di questi sistemi che stiamo costruendo.

Per ascoltare il Podcast di Caos Management clicca qui.

Il podcast che potete ascoltare, è elaborato dalla IA Notebook LM, costruito a partire dalla scrittura originale del suo autore umano. Lo consideriamo un complemento, non è una replica, è un’interpretazione!