In arrivo un nuovo aggiornamento per Grok, l’AI lanciata da Elon Musk per competere con ChatGpt. Secondo quanto annunciato da xAI, il modello multimodale di prima generazione Grok-1.5V è in grado di elaborare non soltanto un testo, ma anche “un’ampia varietà di informazioni visive, tra cui documenti, diagrammi, grafici, screenshot e fotografie”. Nello specifico, stando agli esempi forniti dalla compagnia, il chatbot AI di Musk è in grado di tradurre in codice Python l’immagine di un diagramma di flusso, scrivere una storia partendo da un disegno, calcolare le calorie elaborando la foto di una tabella nutrizionale e persino spiegare un meme che risulta poco comprensibile.
Un aggiornamento interessante, che arriva appena un paio di settimane dal rilascio di Grok 1.5, una versione migliorata del modello nella programmazione, nella matematica e nella comprensione delle richieste degli utenti. Il chatbot di xAI fa così un ulteriore passo in avanti, preparandosi a diventare disponibile per gli utenti nel prossimo futuro. Ma non è tutto. In occasione dell’annuncio del nuovo Grok-1.5V, la compagnia ha presentato anche un nuovo set di dati di benchmarking “progettato per valutare le capacità di comprensione spaziale di base del mondo reale dei modelli multimodali”, RealWorldQA.
La versione attuale si compone di oltre 700 immagini, riprese da veicoli e da contesti del mondo di tutti i giorni, “con una domanda e una risposta facilmente verificabile per ogni immagine”, fornendo così uno strumento utile per valutare il livello di comprensione dei modelli AI. Come è facile immaginare, Grok-1.5V ha ottenuto il punteggio più alto possibile quando è stato testato con il set RealWorldQA, al pari di Gor-4V di OpenAI e Gemini Pro 1.5 di Google. Ma xAI non sembra accontentarsi. E, anzi, si dice pronta a migliorare ancora il suo chatbot: “Portare avanti sia la nostra comprensione multimodale che le capacità di generazione sono passi importanti nella costruzione di AGI benefici che possono capire l’universo. Nei prossimi mesi, prevediamo di apportare miglioramenti significativi in entrambe le capacità, attraverso varie modalità come immagini, audio e video”.
Fonte : Wired