Per dimostrare le capacità di Gemini, la sua IA più “potente”, Google ha prodotto una serie di video con dimostrazioni pratiche.
In una di queste demo, la nuova intelligenza artificiale interagisce con un essere umano in modo sorprendente. Gemini “osserva” i movimenti delle mani di un uomo ripresi da una videocamera. E commenta in modo brillante – con una voce virtuale e con il testo – tutto ciò che accade: intuisce il trucco trucco di una “magia”, corregge l’ordine dei pianeti a partire dal Sole, prevede quale tipo di auto andrà più veloce in discesa e capisce quale scena di un film sta mimando una persona che ruota le braccia sbilanciandosi all’indietro (per la cronaca: The Matrix).
Come funziona Gemini, la nuova IA di Google che interagisce con l’uomo
Nel video Gemini fa tutto questo in tempo reale, con una rapidità e un’accuratezza che in effetti lascia a bocca aperta.
È stato altrettanto sconvolgente scoprire – soltanto qualche ora dopo il lancio ufficiale della nuova IA – che proprio quel video, nel frattempo diventato virale, è un fake. O meglio: Gemini è probabilmente in grado di interpretare le azioni dell’uomo e di dare risposte identiche a quelle fornite nei sei minuti della demo realizzata da Google.
Ma il problema è che non può (ancora) farlo esattamente in quel modo.
Si è intuito subito dalla descrizione che accompagna la demo su YouTube, in cui si legge che “la latenza [vale a dire il tempo che intercorre tra le azioni dell’uomo e le risposte di Gemini, nda] è stata ridotta e le risposte di Gemini sono state accorciate per una questione di tempi”.
Ecco Gemini, l’IA più potente di Google: comprende la fisica e la matematica
Gemini, insomma, non è capace di rispondere in tempo reale e con la velocità che rende così speciale il video realizzato da Google.
Un portavoce di Google ha riferito a Bloomberg che la demo di Gemini è stata costruita a partire da conversazioni intercorse tra uomini e IA a partire da “immagini estratte dal video e da comandi testuali”.
Sembra, insomma, che gli ingegneri di Google abbiano dapprima girato il video di sei minuti e da questo abbiano estrapolato, in seguito, una serie di frame. Le immagini selezionate, corrispondenti a diverse azioni effettuate dall’uomo protagonista della clip, sono state sottoposte a Gemini insieme a un prompt, vale a dire un comando testuale che invita l’IA a generare un determinato contenuto: può essere un testo, ma anche un audio o un’immagine.
Alla fine Google ha “dato voce” alle risposte di Gemini, le ha inserite nella demo e ha velocizzato il tutto. Così facendo, ha dato l’impressione che l’interazione tra IA e essere umano avvenga in modo estremamente naturale e soprattutto in tempo reale.
La demo di Google, di fatto, è una promessa. Un modo fin troppo spettacolare di annunciare il futuro che ci attende. Un futuro in cui probabilmente nessuno sarà più solo. E in cui le persone, probabilmente, arriveranno al punto di stringere un legame profondo con un’intelligenza artificiale. Come accade al protagonista di Her, il film di Spike Jonze del 2013.
A quei sei minuti “da film” vorrebbero credere in molti. Tutti quelli, per esempio, che hanno accolto con grande entusiasmo AI Pin di Humane, il piccolo dispositivo che si fissa ai vestiti – come una spilla – e che può contare su una IA generativa che “osserva” il mondo grazie a una videocamera integrata. Una IA che può commentare ciò che “vede” proprio grazie a una voce virtuale.
Ecco, provate a immaginare un futuro di questo tipo, in cui simili dispositivi accompagneranno l’uomo e IA come quella mostrata nella demo di Google offriranno informazioni, ma anche battute spiritose, in tempo reale.
Oriol Vynials, a capo della ricerca e del deep learning di Google DeepMind, il team che in Google sviluppa l’IA più avanzata, ha scritto sul social network X che “tutti i suggerimenti e gli output dell’utente nel video sono reali, abbreviati per ridurre i tempi” e che “il video illustra come potrebbero essere le esperienze multimodali realizzate con Gemini”.
“L’abbiamo realizzato per ispirare gli sviluppatori” ha aggiunto Vynials. E in effetti sul blog dedicato agli sviluppatori Google non fa mistero dei prompt (non editati) e delle immagini utilizzate per ottenere le risposte di Gemini da inserire nella sua demo.
E allora viene da chiedersi: Google, perché lo hai fatto?
Anche se dietro la clip di sei minuti ci fosse una disincantata buona fede, e la migliore delle intenzioni – “ispirare gli sviluppatori”, appunto – la strategia di Big G rischia di danneggiare la sua stessa tecnologia.
Se c’è una cosa che abbiamo imparato usando l’intelligenza artificiale generativa, e che non bisogna mai fidarsi ciecamente di ciò che scrive. Perché questo tipo di IA, che sa esprimersi come un essere umano, soffre talvolta di “allucinazioni”: alcune delle sue risposte, in apparenza plausibili e coerenti, potrebbero contenere in realtà informazioni errate o inventate.
Google ha già pagato, in passato, l’errore di una sua IA. A febbraio scorso, quando il Ceo Pichai ha svelato Bard, proprio una demo dell’intelligenza artificiale generativa conteneva un errore che ha fatto perdere 100 milioni di dollari all’azienda americana.
Ma a Mountain View non sembrano aver imparato la lezione.
La demo di Gemini ora circola come un “fake” sui social network, minando la credibilità della nuova IA. E il rischio è che Google, oltre a perdere denaro, stavolta perda anche terreno nella corsa all’IA.
Fonte : Repubblica