Le capacità dei modelli di intelligenza artificiale sono finora rimaste confinate essenzialmente al mondo digitale. Da oggi invece l’IA potrebbe cominciare a interagire con il mondo fisico, incarnata nel corpo meccanico di un robot. E la prima a farlo potrebbe essere Gemini, la piattaforma di Google che ora viene declinata in due nuovi modelli. Il primo, Gemini Robotics, è un avanzato sistema di visione-linguaggio-azione (VLA), sviluppato a partire da Gemini 2.0, che integra azioni fisiche come nuova modalità di output per il controllo diretto dei robot. Il secondo è Gemini Robotics-ER, un sistema di visione-linguaggio (VLM) con capacità avanzate di comprensione spaziale, che permette ai ricercatori di utilizzare il ragionamento incarnato di Gemini nei loro programmi.
“Abbiamo sempre creduto nel potenziale trasformativo dell’intelligenza artificiale per la robotica”, afferma Carolina Parada, a capo del team di robotica di Google DeepMind. Per essere utile nel mondo fisico, l’intelligenza artificiale deve dimostrare una capacità di ragionamento analoga a quella umana, in grado di comprendere e reagire all’ambiente circostante e intraprendere azioni concrete e sicure. “Quando un modello di robot possiede una comprensione generale dei concetti, la sua utilità si amplifica esponenzialmente”, spiega Kanishka Rao, ingegnere software di DeepMind. Questa flessibilità è una delle caratteristiche di Gemini Robotics: i robot non sono più limitati a compiti specifici in ambienti controllati, ma possono operare in una vasta gamma di contesti, adattandosi a oggetti e situazioni sconosciute. La capacità di reagire e adattarsi deriva dalla vasta conoscenza del mondo acquisita da Gemini con l’addestramento su un’enorme quantità di dati.
Riccardo Giraldi, l’italiano dietro Gemini: “L’IA sta imparando a ragionare”. E sogna di tornare
Tre qualità
Per essere utili e d’aiuto alle persone, i modelli di IA per la robotica devono avere tre qualità principali, secondo Parada: “Devono essere generali, cioè in grado di adattarsi a diverse situazioni; interattivi, capaci di comprendere e rispondere rapidamente alle istruzioni o ai cambiamenti nel loro ambiente; e abili, ossia saper fare cose che le persone generalmente possono fare con le mani e le dita, come manipolare gli oggetti”. Gemini Robotics rappresenta un passo avanti sostanziale nelle prestazioni in tutti e tre questi ambiti, secondo Google.
Gemini Robotics sfrutta la comprensione del mondo di Gemini per generalizzare a nuove situazioni e risolvere un’ampia varietà di compiti fuori dagli schemi, compresi compiti che non ha mai visto prima nell’addestramento. Gemini Robotics è anche abile nell’affrontare nuovi oggetti, diverse istruzioni e nuovi ambienti. Più che il rapporto tecnico, dove si spiega che Gemini Robotics raddoppia le prestazioni rispetto ad altri modelli di visione-linguaggio-azione, vale l’esempio: basta dire al robot di mettere la palla nel canestro perché capisco cosa deve fare, pur non avendolo mai fatto prima. L’interattività di Gemini Robotics rende poi l’interazione con i robot più naturale e intuitiva. Non è più necessario impartire comandi complessi o utilizzare interfacce complicate. Basta parlare con il robot, come con un assistente umano. “È possibile usare tutte le lingue che Gemini comprende per interagire con il robot”, precisa Rao. L’abilità, o destrezza, è un’altra area in cui Gemini Robotics eccelle. I robot sono ora in grado di eseguire compiti di manipolazione complessi e di precisione. “Gemini Robotics può fare molto di più che prendere e posizionare”, spiega Rao. “Questa capacità di manipolazione avanzata è fondamentale per l’utilizzo dei robot in una vasta gamma di applicazioni, dalla produzione industriale all’assistenza domiciliare”.
Umanoide o non umanoide
“Abbiamo costruito Gemini Robotics per essere agnostico all’hardware”, chiarisce Vikas Sindhwani, Research Scientist di Google DeepMind a New York. “Gemini Robotics è stato addestrato in gran parte sulla piattaforma ALOHA 2, che è una piattaforma a basso costo, ma l’abbiamo anche adattata per essere usata sulla piattaforma BioTac, più industriale e ampiamente usata nella ricerca. Abbiamo anche collaborato con Apptronik per controllare un umanoide molto più complesso e con un grado di libertà più elevato, chiamato Apollo”. “Con loro stiamo già lavorando per costruire la prossima generazione di robot umanoidi basati su Gemini”, rivela Parada. Oltre alla partnership con Apptronik per costruire la prossima generazione di robot umanoidi, il modello Gemini Robotics-ER è adottato anche da Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools e altri.
La sicurezza
Gemini Robotics ha il potenziale per rivoluzionare numerosi settori. Nella produzione industriale, i robot saranno capaci eseguire compiti complessi e adattarsi a linee di produzione flessibili. Nell’assistenza domiciliare, potranno aiutare le persone anziane o disabili a svolgere le attività quotidiane. Nella logistica, saranno usati per automatizzare la movimentazione di merci in magazzini e centri di distribuzione. L’idea è che esseri umani e robot convivano e collaborino nello stesso ambiente, ma non subito: “Inizialmente, possiamo aspettarci che i robot mantengano una distanza di sicurezza dagli esseri umani. Gradualmente, cercheremo di permettere compiti più interattivi e collaborativi”, spiega Sindhwani. E la sicurezza? “Abbiamo previsto diversi livelli di sicurezza, dalla prevenzione delle collisioni al controllo semantico delle azioni, per garantire che i robot agiscano in modo responsabile e sicuro”. I modelli Gemini Robotics-ER possono comprendere se un’azione è sicura da eseguire in un determinato contesto e generare risposte appropriate. Siamo già nella fantascienza, fuor di metafora: già qualche anno fa Google aveva mostrato come una Costituzione Robotica ispirata alle Tre Leggi della Robotica di Isaac Asimov potrebbe guidare un LLM nella valutazione dei compiti più sicuri per i robot. A Mountain View hanno sviluppato un framework per generare automaticamente regole ricavate dai dati ed espresse in linguaggio naturale per guidare il comportamento di un robot. E per misurare il livello di sicurezza c’è un nuovo set di valutazioni: “È stato creato utilizzando scene reali, immagini e dati provenienti da rapporti di incidenti raccolti dagli ospedali degli Stati Uniti attraverso il National Electronic Injury Surveillance System”, prosegue Sindhwani. “Le informazioni sono state trasformate in scenari di test che valutano la comprensione di buon senso sulla sicurezza, come ad esempio la pericolosità di mescolare candeggina con aceto, lasciare un asciugamano su una stufa calda, o servire arachidi a una persona allergica. In sostanza, il benchmark Asimov verifica la capacità di comprendere situazioni pericolose che gli esseri umani riconoscono automaticamente”.
Ripensare l’IA
Gemini Robotics non è solo un’innovazione tecnologica, ma anche un cambiamento di paradigma nel modo in cui concepiamo l’intelligenza artificiale. Non si tratta più di creare macchine che eseguono compiti predefiniti, quanto di sviluppare sistemi che possono apprendere, adattarsi e interagire con il mondo in modo intelligente e autonomo. A questo serve Gemini Robotics-ER (“embodied reasoning”), un modello avanzato di visione-linguaggio che si concentra in particolare sul ragionamento spaziale. Combinando il ragionamento spaziale e le capacità di codifica di Gemini, Gemini Robotics-ER può sviluppare capacità completamente nuove al volo. Ad esempio, quando viene mostrata una tazza da caffè, il modello può intuire il modo giusto per prenderla per il manico con due dita e la traiettoria sicura per avvicinarla alla bocca. Il modello ha un tasso di successo di 2 o 3 volte superiore rispetto a Gemini 2.0, ma dove il codice non è sufficiente, può anche sfruttare la potenza dell’apprendimento in-context, apprendendo da dimostrazioni umane per trovare una soluzione.
Arriveranno presto le prime applicazioni pratiche, precisano i ricercatori di Google. Col tempo, arriverà però anche un radicale ripensamento dei modelli di intelligenza artificiale: “Crediamo che concentrarsi sulla risoluzione di problemi concreti nel mondo fisico aiuti a migliorare significativamente il modo in cui l’intelligenza artificiale apprende. Affrontare questi problemi reali ci spinge a porci domande più precise su come comprendere meglio il mondo fisico, e ciò è fondamentale per acquisire una vera comprensione del mondo stesso”, commenta Carolina Parada. “La migliore rappresentazione di intelligenza artificiale che abbiamo è il cervello umano, e gli esseri umani imparano interagendo direttamente con l’ambiente che li circonda. Quindi siamo convinti che l’apprendimento tramite i robot possa contribuire a sviluppare ulteriormente la capacità dell’IA di comprendere il mondo fisico, aspetto cruciale per raggiungere livelli di intelligenza molto più avanzati”.
Fonte : Repubblica