OpenAI, l’azienda di San Francisco che ha creato ChatGpt, ha annunciato l’uscita di GPT-4o, una versione migliorata del modello Gpt-4 su cui si basano le capacità del popolare chatbot che genera testi e immagini come farebbe un essere umano.
Il nuovo modello è già disponibile per tutti gli utenti di ChatGpt. Anche in Italia si può selezionare Gpt-4o nel menu a tendina che ospita i vari modelli finora aperti al pubblico da OpenAI (Gpt-3.5 e Gpt-4)
Mira Murati, la Chief Technology Officer di OpenAI, vale a dire la manager che supervisiona e definisce la strategia tecnologica dell’azienda, ha affermato durante un evento in streaming che il nuovo modello “è molto più veloce” di quelli che lo hanno preceduto e che possiede capacità superiori in termini di “elaborazione del testo, delle immagini e dell’audio”.
La “o” in GPT-4o sta per “omni” – dal latino “omnis”, “tutto” – che fa riferimento alla multimodalità di GPT-4o.
“Gpt-4o rappresenta un significativo passo in avanti verso un’interazione uomo-computer molto più naturale – si legge sul blog di OpenAI -. A differenza dei modelli precedenti, è in grado di accettare come input qualsiasi combinazione di testo, audio e immagine, generando a sua volta output in tutti e tre i formati [per “multimodalità” si intende proprio questo, nda]”.
OpenAI ha sottolineato, inoltre, la “impressionante” velocità di reazione di Gpt-4 quando si utilizza un input audio: “Può rispondere a input audio in appena 232 millisecondi, con una media di 320 millisecondi, avvicinandosi quindi ai tempi di reazione umani in una conversazione” sostiene l’azienda di San Francisco. Ma queste performance, ovviamente, andranno verificate.
ChatGpt offre da tempo ai suoi utenti la possibilità di ascoltare – attraverso una voce virtuale – le risposte generate dall’intelligenza artificiale. Ma grazie a Gpt-4o il chatbot diventa qualcosa di più simile a un assistente virtuale. A una “vera” persona con cui colloquiare, insomma.
Al punto da spingere Sam Altman, il Ceo di OpenAI, a paragonare Gpt-4o all’intelligenza artificiale del film Her di Spike Jonze, in cui il protagonista si innamora gradualmente di una macchina capace di conversare amabilmente.
Il nuovo modello, per esempio, consentirà agli utenti di ChatGpt di porre ulteriori domande all’IA – oppure di interromperla – mentre questa sta ancora “parlando”. Finora, invece, bisognava attendere che la generazione del testo – e del rispettivo audio – si concludesse. In questo modo uomo e macchina converseranno – se tutto funzionerà come previsto da OpenAI –
come farebbero due persone in carne e ossa.
Gpt-4o permetterà inoltre a ChatGpt di riconoscere le emozioni nella voce dell’utente, generando in questo modo risposte con toni adeguati.
I progressi nella generazione audio, in un primo periodo, saranno riservati soltanto a un gruppo di partner commerciali selezionati e affidabili di OpenAI, poiché l’azienda teme utilizzi inappropriati di questa tecnologia.
Gpt-4o permette inoltre all’utente, per la prima volta, di caricare un video su ChatGpt e di chiedere all’intelligenza artificiale di descrivere le immagini o riassumere il loro contenuto. Abbiamo provato la nuova funzione con una breve clip e ci sembra di capire che l’analisi dell’IA avvenga attraverso l’estrazione dal video di una serie di fotogrammi. Sulla base di tali frame, ChatGpt procede con la descrizione del contenuto della clip.
Durante il live streaming Murati ha anche detto che le capacità “visive” dell’intelligenza artificiale stanno migliorando velocemente: “Oggi GPT-4o permette, ad esempio, di scattare la foto di un menu in un’altra lingua e di tradurlo al volo. In futuro, potrebbe consentire a ChatGPT di ‘guardare’ un evento sportivo in diretta e spiegare le regole del gioco”.
Un aspetto importante, soprattutto per gli utenti al di fuori dagli Stati Uniti, è che Gpt-4o mostra un netto miglioramento rispetto a Gpt-4 Turbo nella gestione di testi in lingue diverse dall’inglese.
Tutti gli utenti di ChatGpt potranno sfruttare le capacità del nuovo modello Gpt-4o riguardanti testo e immagini. Anche chi usa il chatbot senza pagare. Si tratta di un cambio di rotta importante, per OpenAI. Finora, infatti, soltanto gli abbonati a ChatGpt Plus – 20 euro al mese, più tasse – potevano accedere in anteprima a nuove funzioni e al modello di IA più avanzato.
Anche il Gpt Store, il negozio virtuale che ospita le intelligenze artificiali create direttamente dagli utenti “Plus” di ChatGpt, sarà presto accessibile a chi non ha un abbonamento.
Mira Murati ha però assicurato che gli utenti “Plus” conserveranno dei privilegi, tra cui un tetto di richieste al chatbot superiore di almeno cinque volte a chi usa gratis ChatGpt. Ricordiamo, infatti, che anche gli utenti di ChatGpt Plus vanno incontro a un limite di interazioni: sono 40 ogni tre ore.
Buone notizie anche per gli sviluppatori: il nuovo modello ha un costo inferiore a Gpt-4 Turbo – tramite API – del 50%.
Sam Altman stava dicendo la verità, insomma, quando annunciando “alcune novità” riguardanti OpenAI ha scritto, su X, che non si trattava né di Gpt-5 – l’attesa evoluzione di Gpt-4 di cui tutti parlano da mesi – né di un nuovo motore di ricerca dotato di intelligenza artificiale che l’azienda, stando alle indiscrezioni, sarebbe intenzionata a lanciare molto presto.
Altman lascia intendere che l’obiettivo dell’azienda sia ora quello di sviluppare API a pagamento per sviluppatori che possano creare applicazioni e servizi innovativi. “Saranno gli altri a usare la nostra intelligenza artificiale per realizzare tutte le cose fantastiche di cui tutti potremo beneficiare”.
Fonte : Repubblica