ChatGPT, le voci ultrarealistiche iniziano a essere diffuse in test

È partita la diffusione graduale delle tanto attese voci ultrarealistiche di ChatGPT con OpenAI che ha iniziato a rendere accessibile l’innovativa funzionalità a un numero molto limitato di tester, tra quelli che hanno sottoscritto un piano di abbonamento a pagamento. Le voci erano state presentate in concomitanza al lancio del nuovo modello di linguaggio GPT-4o e sono sopravvissute anche a un piccolo scandalo della somiglianza di una delle voci con il timbro dell’attrice Scarlett Johansson. Nonostante un piccolo ritardo dovuto alla necessità di sistemare alcuni dettagli sulla sicurezza, il lancio pubblico avverrà in autunno.

Dopo aver ufficializzato anche il modello mini di GPT-4o e il motore di ricerca basato su AI SearchGPT, OpenAI mantiene le promesse e riserva un piccolo assaggio delle attesissime voci ultrarealistiche di ChatGPT (advanced voice mode) a un ristretto numero di tester, pescati tra quelli che hanno sottoscritto un piano di abbonamento Plus ai servizi premium. Come anticipato, non ci sarà la voce nota come Sky, che in effetti sembrava un po’ troppo simile a quella di Scarlett Johansson nel celebre film Her in cui interpretava appunto un’intelligenza artificiale evoluta. L’attrice aveva paventato un’azione legale, rivelando anche di aver rifiutato di dare il consenso a OpenAI di mantenere la voce (verosimilmente dietro lauto pagamento). Rimarranno dunque gli altri timbri femminili, maschili e neutri con i quali interagire in modo mai visto (e sentito) prima, con conversazioni naturali proprio come se si stesse conversando con una persona in carne e ossa.

Se prima le voci passavano da una conversione della voce dell’utente in testo poi da processare con GPT-4 e da elaborare per poi generare una risposta, con GPT-4o tutto avverrà in modo multimodale con una latenza quasi del tutto eliminata. Non solo, il sistema comprenderà le emozioni umane adeguando il tono di conseguenza. Inoltre, si potrà anche sottoporre all’AI foto oppure accendere la fotocamera per mostrare ciò che circonda l’utente. Le voci potranno parlare in decine di lingue, incluso anche l’italiano: appuntamento il prossimo autunno per i test sulle versioni definitive.

Fonte : Wired