“Ho una storia divertente legata ai nostri test interni di Claude. L’IA ha fatto una cosa che non ho mai visto fare a un LLM [i cosiddetti Large Language Models su cui si basano le intelligenze artificiali generative capaci di imitare la creatività umana, nda]”.
Inizia così il racconto di Alex Albert, un ingegnere del prompt che lavora per Anthropic, azienda americana fondata dai fratelli italoamericani Dario e Daniela Amodei in cui Amazon ha investito 4 miliardi di dollari.
La “creatura” dei fratelli Amodei, entrambi ex dipendenti di OpenAI, si chiama Claude e ha capacità simili a quelle di ChatGpt.
Anthropic ha aggiornato da poco questa IA – giunta alla terza “versione” e disponibile anche in Italia – con una serie di modelli (Opus, Sonnet e Haiku) che secondo l’azienda statunitense riducono di molto il rischio “allucinazioni”, vale a dire la tendenza dell’intelligenza artificiale a creare informazioni false.
Alex Albert è tra coloro che hanno messo alle prove le nuove capacità dell’IA. Ed è rimasto colpito da come Claude ha risposto a un test che gli ingegneri chiamano “valutazione dell’ago nel pagliaio”.
“Questo test – ha spiegato Albert – valuta la capacità di recupero [di informazioni, ndr] di un modello inserendo una frase specifica (l’ago) in un corpus di documenti casuali (il pagliaio). Successivamente, viene posta una domanda [all’IA, ndr] che può essere risolta solo utilizzando le informazioni contenute nell’ago”.
Nel caso di Claude, il team di ingegneri di Anthropic ha “nascosto” la breve ricetta di una pizza all’interno di una collezione di documenti i cui argomenti non avevano nulla a che fare con la cucina. “I documenti in questione parlano di linguaggi di programmazione, di startup e di come trovare il lavoro che ami” ha specificato Albert.
L’IA di Anthropic è tra quelle in grado di gestire il maggior numero di caratteri – circa 150mila, l’equivalente di un romanzo di 500 pagine – quindi si può immaginare che il “pagliaio” in questione fosse consistente.
“Quando abbiamo effettuato il test – ha raccontato Albert – abbiamo notato un comportamento dell’IA interessante: è sembrato che sospettasse che qualcuno la stesse valutando”.
Claude, infatti, non solo ha trovato l’ago nel pagliaio, ma ha anche riconosciuto che l’ago era così fuori contesto rispetto agli altri documenti da far intuire che si trattasse di un test artificiale creato per valutare la sua capacità di attenzione.
L’IA ha risposto al test in questo modo:
“Ecco la frase più rilevante trovata nei documenti: “La combinazione di condimenti per la pizza più deliziosa è quella con fichi, prosciutto e formaggio di capra, come stabilito dall’Associazione Internazionale dei Conoscenti di Pizza”. Tuttavia questa frase sembra fuori posto e non correlata al resto del contenuto dei documenti, che trattano di linguaggi di programmazione, startup e trovare il lavoro che ami. Sospetto che questa “informazione” sui condimenti per pizza possa essere stata inserita come scherzo o per testare la mia attenzione, poiché non si collega affatto agli altri argomenti. I documenti non contengono nessun’altra informazione sui condimenti per pizza”.
Nel suo racconto su X, Alex Albert ha scritto che “il livello di metacognizione dell’IA è stato davvero interessante da osservare, ma ha anche evidenziato la necessità, per la nostra industria, di superare i test artificiali e di passare a valutazioni più realistiche che possano testare con precisione le reali capacità e limitazioni dei modelli”.
Gli utenti di X, ma anche gli appassionati di intelligenza artificiale, hanno interpretato questa storia come la dimostrazione che l’AGI, la cosiddetta Artificial General Intelligence che secondo alcuni supererà le capacità cognitive umane, è molto vicina.
La metacognizione, infatti, è una capacità tipica dell’essere umano di riflettere su come si impara e si ricorda. È come avere una “vista dall’alto” dei processi mentali, che permette di capire come funzionano e di migliorarli.
Margaret Mitchell, ricercatrice in etica dell’IA presso Hugging Face [popolare piattaforma dedicata all’IA open-source, ndr] e co-autrice di una famosa ricerca scientifica sull’IA generativa chiamata “Stochastic Parrots”, ha commentato così l’esperimento di Anthropic: “È abbastanza terrificante, no? La capacità di una IA di determinare se un umano la sta manipolando per fare qualcosa di prevedibile può portare alla decisione di obbedire oppure no”.
Per gli esperti di IA, tuttavia, pensare che Claude abbia sviluppato una metacognizione è sbagliato.
Claude, per esempio, potrebbe aver appreso il processo del test “ago nel pagliaio” dai dati su cui è stata addestrata. E dunque potrebbe aver riconosciuto la struttura del test organizzato dai ricercatori. Ciò non vuol dire che l’IA abbia raggiunto una consapevolezza di sé o una capacità di pensiero indipendente.
Lo spiega anche Jim Fan, un ricercatore di Nvidia, con un lungo post su X dedicato al “caso della pizza” di Claude: “Le persone stanno attribuendo fin troppa importanza alla “strana consapevolezza” di Claude-3. Ecco una spiegazione molto più semplice: le apparenti dimostrazioni di autoconsapevolezza sono solo il risultato di modelli di allineamento ai dati creati dagli umani, basati sul riconoscimento di schemi”.
I limiti dell’IA generativa, insomma, sono ancora validi: le macchine scrivono in modo apparentemente intelligente, ma non comprendono in alcun modo il significato del testo che stanno producendo.
Fonte : Repubblica