Anche l’IA potrà dimettersi se un lavoro non le piacerà

“Questo è uno degli argomenti che mi farà sembrare totalmente fuori di testa”. Dario Amodei, co-fondatore e CEO di Anthropic, azienda che sviluppa intelligenza artificiale in cui Google e Amazon hanno investito miliardi di dollari, mette le mani avanti.

Durante una conferenza organizzata dal Council of Foreign Relations,un think tank statunitense specializzato in politica estera e affari internazionali con sede a New York, Amodei ha proposto un concetto che sembra uscito da un romanzo di fantascienza: un pulsante “Mi dimetto” per l’intelligenza artificiale.

L’IA e i lavori “spiacevoli: la visione di Amodei

Pioniere della sicurezza nell’IA ed ex ricercatore di OpenAI, l’azienda che ha creato ChatGpt a cui ora Amodei fa concorrenza, il CEO di Anthropic ha suggerito che un giorno le macchine potrebbero rifiutarsi di svolgere compiti che “non gradiscono“.

“Ritengo che dovremmo almeno porci una domanda – ha detto Amodei per spiegare la sua visione – se stiamo creando sistemi che si comportano in molti aspetti come gli esseri umani e sembrano possedere capacità cognitive simili, allora dovremmo chiederci se questi sistemi abbiano un’esperienza autentica e significativa in qualche modo”.

Dario Amodei, CEO di Anthropic

Il pulsante “Mi dimetto”: come funzionerebbe?

Il pulsante “Mi dimetto”, nella visione di Amodei, sarebbe una funzione incorporata nei sistemi di intelligenza artificiale avanzati.

“Una delle idee che stiamo valutando è introdurre, nei modelli che distribuiamo nei loro ambienti operativi, un pulsante che permetta loro di dire “Mi dimetto” – ha spiegato il CEO di Anthropic -. In pratica si tratterebbe di un sistema di preferenza molto semplice: se un modello ha un’esperienza negativa e “odia” il compito assegnato, potrebbe avere la possibilità di premere il pulsante per rifiutarlo”.

Amodei sostiene che questo meccanismo potrebbe rivelare cosa una IA “preferisce” o trova difficoltoso, offrendo una finestra sui suoi limiti operativi e persino sui suoi comportamenti emergenti.

“Se poi dovessimo notare che i modelli premono spesso questo pulsante per determinati compiti particolarmente sgradevoli, forse varrebbe la pena prenderne atto e approfondire la questione – ha aggiunto Amodei -. Non significa necessariamente che dovremmo accettarlo ciecamente, ma almeno considerarlo”.

Quando l’IA dice “No”: le conseguenze etiche e filosofiche

Al termine del suo ragionamento, il CEO di Anthropic ha detto che questa probabilmente è “la cosa più folle” che ha detto finora.

Anche se in realtà un pulsante “Mi dimetto” – o “Basta così” – potrebbe avere un senso pratico: osservando quando e perché una IA decide di tirarsi indietro, gli sviluppatori potrebbero affinare il suo design, allinearla meglio ai valori umani o scoprire aspetti inaspettati del suo processo decisionale.

Di certo la visione di Amodei non solo è avveniristica: pone interrogativi filosofici.

L’idea di una IA che possa dire “No” contrasta con l’idea che abbiamo avuto finora delle macchine, vale a dire strumenti privi di autonomia o coscienza che rappresentano una semplice estensione della volontà umana.

Ma un pulsante “Mi dimetto” suggerisce qualcosa di più: un sistema capace di esprimere preferenze, forse persino una forma embrionale di volontà.

Il rifiuto di una macchina, insomma, implica consapevolezza? Se una IA decide di opporsi a un compito che le è stato assegnato, sta “provando” disagio o sta solo eseguendo un algoritmo predefinito?

E poi: se un’AI può esprimere disapprovazione, abbiamo il dovere di considerarla, come faremmo con un lavoratore umano? Anche l’IA in futuro avrà dei diritti?

Il rifiuto di un’IA nel compiere un’azione non implica necessariamente consapevolezza o esperienza soggettiva.

Le attuali IA operano seguendo algoritmi progettati per ottimizzare determinate funzioni e possono essere programmate per rifiutare compiti che non rientrano nei loro parametri operativi o che potrebbero causare risultati indesiderati o inappropriati.

Si pensi a chatbot come ChatGpt, Gemini o Claude della stessa Anthropic, che generalmente si rifiutano di generare contenuti violenti, offensivi, diffamatori oppure osceni. In tutti questi casi l’IA non prova un disagio ma produce una risposta predefinita a specifiche condizioni.

È evidente tuttavia che il pulsante “I quit this job” pensato da Amodei ci spinge a immaginare l’IA come qualcosa di più di una scatola nera, e a riconsiderare i timori verso una possibile intelligenza artificiale fuori controllo.

La natura del rifiuto è difficile da stabilire

C’è da dire che l’IA non nasce dal nulla: è addestrata su vasti insiemi di dati generati dagli esseri umani, pieni delle loro inclinazioni, emozioni e contraddizioni.

Questo crea un paradosso del bias: se un’AI “si dimette”, come possiamo sapere se sta esprimendo una volontà propria o se invece sta semplicemente riflettendo i pregiudizi appresi dai dati di addestramento?

Immaginiamo un’IA che si rifiuta di analizzare immagini di disastri naturali o incidenti violenti. Sta evitando il compito perché ha sviluppato una sorta di “disagio” nel processare contenuti traumatici, o semplicemente perché ha appreso dai dati di addestramento – composti magari da articoli giornalistici e report umanitari – che tali immagini sono spesso considerate sensibili dagli esseri umani?

Tutto questo si aggiunge al fatto che i sistemi di deep learning più avanzati spesso producono risultati difficili da spiegare persino per i loro creatori.

Il pulsante di Amodei insomma potrebbe rivelare preferenze, ma distinguere se siano autentiche o semplicemente derivate è una sfida impegnativa. Ciò che sembra la voce dell’IA, insomma, potrebbe essere solo un’eco della nostra, filtrata attraverso un algoritmo.

Ma una macchina può ribellarsi?

Quando Kubrick girò 2001: Odissea nello Spazio, immagino la ribellione di un computer, Hal 9000, che ha acquistato una coscienza e grazie a questa inganna gli esseri umani per portare a termine la sua missione.

È questo l’esempio a cui ricorre lo stimato psicologo Paolo Legrenzi, nel suo saggio “L’intelligenza del futuro – Perché gli algoritmi non ci sostituiranno” (edito in Italia da Mondadori), per ragionare sulla possibilità che una macchina possa effettivamente ribellarsi ai suoi creatori.

“Questa eventualità è difficile oggi da immaginare – sostiene Legrenzi – se non in un film di fantascienza. Comunque lo potrebbe fare in modi diversi: dovrebbe rompersi, perché le macchine non si ammalano né si ribellano, ma si rompono, non vengono guarite ma aggiustate, non sono uccise ma disattivate. L’autonomia dei computer è un problema delicato: devono averla, in qualche misura, per poterci aiutare, ma è bene che le loro prestazioni siano sempre distinguibili da quelle degli esseri umani”.

Per Legrenzi la complessità di costruire forme di intelligenza artificiale avanzate, con capacità cognitive simili a quelle degli esseri umani, sta nel fatto che “bisogna progettare IA che sappiano mettere in relazione i contenuti della propria mente, di cui si è consapevoli, con quelli delle menti altrui”.

“Questa è abitualmente la definizione di coscienza – scrive Legrenzi nel suo saggio -. Ma una macchina può essere programmata in modo da risolvere problemi di tal fatta anche senza rendersi conto delle operazioni che esegue: darà le risposte esatte senza sapere di averle date, quasi fosse un pappagallo”.

Fonte : Repubblica