Nonostante sia disponibile al pubblico da soli due mesi, Gemini, il modello di intelligenza artificiale di Google, ha già un aggiornamento. Ieri il colosso ha lanciato Gemini Pro 1.5, che è più potente del suo predecessore e può gestire enormi quantità di testo, video o audio.
Demis Hassabis, amministratore delegato DeepMind, la divisione di Google che ha sviluppato il nuovo modello, paragona le capacità di input di Gemini 1.5 alla memoria di lavoro di un essere umano.
Le capacità di Gemini 1.5
In una dimostrazione organizzata da DeepMind, Gemini Pro 1.5 ha analizzato un pdf di 402 pagine contenente la trascrizione delle comunicazioni dell’Apollo 11. Quando gli è stato chiesto di trovare dei passaggi divertenti nel documento, il modello ha evidenziato diverse sezioni, tra cui una in cui gli astronauti hanno attribuito un ritardo nelle comunicazioni a una pausa spuntino. In un’altra demo il sistema di Google è stato in grado di rispondere a diverse domande su scene specifiche di un film di Buster Keaton. La versione precedente di Gemini poteva rispondere a domande relative solo a testi o video molto più brevi. Google spera che le nuove funzionalità consentano agli sviluppatori di creare nuove applicazioni. “Il modo in cui il modello esegue questo tipo di ragionamento su ogni singola pagina e su ogni singola parola è davvero magico“, commenta il ricercatore di DeepMind Oriol Vinyals.
Google riporta che Gemini Pro 1.5 è in grado di processare e capire il senso di video da un’ora, file audio da 11 ore, 700mila parole o 30mila righe di codice in una sola volta, una capacità molto superiore a quella di modelli AI come GPT-4 di OpenAI, che alimenta ChatGPT. Il gigante non ha rivelato i dettagli tecnici che hanno reso possibile questo traguardo. Hassabis ha però dichiarato che una delle applicazioni testata dai ricercatori di Google DeepMind è stata l’identificazione dei punti salienti in discussioni su Discord con migliaia di messaggi.
Gemini Pro 1.5 è anche più performante, come dimostra il punteggio ottenuto dal modello in diversi benchmark. Il nuovo sistema sfrutta una tecnica ideata dai ricercatori di Google per ottimizzare le prestazioni senza aumentare la potenza di calcolo. La metodologia, ribattezzata mixture of expert, attiva in modo selettivo le parti nell’architettura di un modello che sono più adatte a risolvere un determinato compito, rendendone più efficiente l’addestramento e l’esecuzione.
Fonte : Wired