Sembrano i nomi di smartphone di ultima generazione: Gemini Nano, Gemini Pro e Gemini Ultra. In realtà sono tre differenti versioni della nuova intelligenza artificiale di Google, che sembrava dovesse slittare al 2024 e che, invece, è disponibile – nella versione Pro – già da oggi in 170 paesi. Tra questi non c’è l’Italia. In Europa, dice Sissie Hsiao, vicepresidente in Google e General Manager di Google Assistant e Bard, Gemini arriverà “molto presto”.
Sundar Pichai, Ceo di Google e Alphabet che qualche mese fa ha paragonato l’impatto dell’IA generativa sulla vita dell’uomo a quello determinato dalla “scoperta del fuoco e dell’elettricità”, ha lanciato Gemini affermando che “la transizione che stiamo vivendo attualmente con l’intelligenza artificiale sarà la più profonda della nostra vita, molto più grande del passaggio ai dispositivi mobili o al web che l’ha preceduta”.
“Stiamo solo grattando la superficie di ciò che sarà possibile fare” ha detto Pichai.
“Gemini è anche il nostro modello più flessibile creato finora – ha detto Demis Hassabis, Ceo di Google DeepMind, il team nato dalla fusione di Google Brain e DeepMind (laboratorio di IA acquisito da Google nel 2014) che sviluppa l’intelligenza artificiale più avanzata dell’azienda di Mountain View. “Gemini è in grado di funzionare in modo efficiente su tutto, dai data center ai dispositivi mobili” ha aggiunto Hassabis.
Ecco, dunque, perché esistono tre “versioni” della stessa IA: Gemini Ultra è il modello più potente, pensato per compiti complicati; Gemini Pro è il modello più scalabile, adatto a diversi compiti; Gemini Nano è il modello pensato per far girare l’IA direttamente sui dispositivi mobili: il primo a riceverlo sarà il Pixel 8 Pro di Google, e in particolare la sua app “Registratore” che già oggi, grazie all’IA, fa un lavoro straordinario in termini di trascrizione dei contenuti.
Immaginiamo che l’IA generativa, sui Pixel (“e in seguito su altri dispositivi Android” fa sapere Google), darà una mano significativa anche a mettere ordine tra gli appunti trascritti: proponendo sintesi o bullet points, per esempio.
Di certo Gemini non prenderà il posto di Bard, vale a dire il chatbot gratuito di Google – simile a ChatGpt – che risponde alle domande degli utenti con un linguaggio naturale e, quando richiesto, con una buona dose di “creatività”. Gemini, infatti, sarà il “motore” di Bard. Le versioni Pro e Ultra del nuovo modello di IA, addestrate su una quantità enorme di dati [Google non ha specificato il numero di parametri, nda] permetteranno a Bard di risolvere problemi sempre più complessi e di fornire risposte sempre più accurate ai suoi utenti.
Prima di renderlo disponibile al pubblico, Google ha sottoposto Gemini Pro a una serie di benchmark del settore [vale a dire misure di riferimento comunemente accettate e utilizzate per valutare le prestazioni o le caratteristiche di un sistema, nda]. In sei degli otto benchmark Gemini Pro ha superato GPT-3.5. Incluso il benchmark del MMLU (Massive Multitask Language Understanding), uno degli standard principali per misurare i grandi modelli di intelligenza artificiale, e quello del GSM8K, che misura il ragionamento matematico a livello di scuola elementare.
Con un punteggio del 90%, inoltre, Gemini Ultra – sempre stando a quanto riferisce Google – è il primo modello a superare gli esperti umani nel MMLU (comprensione del linguaggio multitasking massiva), che utilizza una combinazione di 57 materie come matematica, fisica, storia, diritto, medicina ed etica per testare sia la conoscenza del mondo che le capacità di risoluzione dei problemi.
Sulla carta, la nuova IA di Google sembra promettente. Eli Collins, vicepresidente di Google DeepMind, ha spiegato che Gemini è “nativamente multimodale”.
“Finora l’approccio standard alla creazione di modelli multimodali [IA capaci di interagire con diverse modalità di input e output, dai testi alle immagini] è stato quello di sviluppare componenti separati e poi di metterli insieme – ha affermato Collins -. Questi modelli sono molto efficienti se si tratta di fare una determinata operazione, come descrivere un’immagine per esempio, ma fanno difficoltà invece quando hanno a che fare con concetti difficili o con ragionamenti complicati. Gemini, invece, è stata addestrata fin dall’inizio su tipologie di dati differenti come testo, immagini, audio e così via. In questo modo Gemini può intuire le sfumature di determinate informazioni contenute in immagini o audio, per esempio, e può ragionare su problemi di matematica o fisica”.
Alle parole di Collins, durante il meeting organizzato da Google per svelare Gemini, è seguita una dimostrazione pratica. In un video preregistrato, Sam Cheung – Interaction designer di Google – mostra come la nuova IA sia capace non solo di “leggere”, analizzare e risolvere un problema di matematica scritto su un foglio, ma anche di controllare le risposte date dall’utente a quel problema e di spiegare all’essere umano dove ha sbagliato e perché.
Appena due settimane fa, la notizia dei passi in avanti di OpenAI – l’azienda che ha creato ChatGpt – nella risoluzione di problemi di matematica elementari aveva sollevato addirittura timori per il futuro dell’umanità. Si è parlato di un progetto Q* – la cui esistenza è stata confermata dal Ceo Sam Altman – che avvicinerebbe l’IA di OpenAI all’AGI, l’intelligenza artificiale generale che un giorno potrebbe eguagliare le capacità cognitive dell’uomo.
“Non conosco i dettagli del lavoro di OpenAI – ha risposto Collins a chi gli ha chiesto se anche le performance di Gemini lasciano intuire un progresso verso l’AGI – quindi non posso dire nulla al riguardo. Posso comunque dire che con Gemini sono stati fatti passi in avanti riguardo il ragionamento multimodale e i ragionamenti che riguardano matematica e fisica”.
“Con Gemini abbiamo anche fatto progressi enormi in termini di fattualità” ha detto Collins, riferendosi alla capacità dell’IA di basare le sue risposte su fatti concreti e sulla realtà oggettiva, di modo da evitare le “allucinazioni” tipiche dell’intelligenza artificiale generativa, vale a dire la tendenza a produrre risposte plausibili e coerenti ma dal contenuto inventato.
“Gemini è il nostro modello migliore da questo punto di vista – ha aggiunto Collins – ma quello dei possibili errori è un problema dell’IA ancora irrisolto. per questo su Bard abbiamo uno strumento integrato che permette di verificare le informazioni generate [si tratta della “G” simbolo di Google che permette di accedere alla ricerca tradizionale sul web sull’argomento chiesto a Bard, nda]”.
Tra tutte le aziende impegnate nella corsa all’IA, Google è quella che deve fare più attenzione, poiché le risposte sbagliate di Bard – nonostante l’etichetta “Sperimentale” e l’avvertimento “potrebbe mostrare informazioni imprecise” – potrebbero minare la credibilità di un’azienda che fa dell’accuratezza della ricerca un affare da 162 miliardi di dollari l’anno. Tanto è il denaro proveniente dagli annunci pubblicitari su Google, pari al 58% circa dei ricavi complessivi dell’azienda.
A Mountain View, la città della California che ospita il quartier generale di Google, si parla di una nuova era. Anzi di una “Gemini era”, come ha affermato l’amministratore delegato Sundar Pichai presentando la nuova IA, non a caso targata “Gemini 1.0”. Per Google è la prima versione di una tecnologia che potrebbe avere un impatto enorme non solo nel campo scientifico, ma anche nella vita di tutti i giorni.
Lo abbiamo visto con i nostri occhi, nel corso del meeting organizzato da Google per presentare la sua nuova intelligenza artificiale. Lo abbiamo visto con i nostri occhi, nel corso del meeting organizzato da Google per presentare Gemini. Una versione molto avanzata dell’IA, non disponibile al pubblico, ha “visto” attraverso una ripresa video le varie azioni intraprese da un essere umano e le ha commentate in tempo reale – con voce e testo – dispensando informazioni e battute.
Fonte : Repubblica