Sony mostra il suo primo personaggio AI per PlayStation

Sony ha mostrato il suo primo personaggio AI pensato appositamente per un’interazione naturale e realistica. In un video poi cancellato (ma ancora visibile in altri lidi), si può così apprezzare il frutto del lavoro degli sviluppatori del brand nipponico, che hanno preso come esempio la popolare protagonista della serie videoludica Horizon chiamata Aloy. Nella clip, la si può osservare mentre parla e si esibisce in numerose espressioni facciali.

Nel video pubblicato su YouTube e poi subito cancellato (ma non così velocemente, vedi sotto), viene mostrato il personaggio di Aloy della saga Horizon mentre conversa assumendo varie espressioni facciali, gesticola e si muove in reazione a una voce umana che gli sta parlando. La voce appartiene a Sharwin Raghoebardajal, direttore della parte di ingegnerizzazione software di Sony Interactive Entertainment, che si è prestato in prima persona per illustrare il progetto in corso con un video d’esempio. Per realizzare questo prototipo di personaggio AI sono stati utilizzati vari strumenti come i modelli GPT-4 di OpenAI e Llama 3 di Meta per elaborare le risposte che vengono trasformate in parlato dalla tecnologia proprietaria chiamata Emotional Voice Synthesis (Evs), mentre il riconoscimento vocale è affidato a un altro tool di OpenAI ovvero Whisper.

X content

This content can also be viewed on the site it originates from.

Nel video, Aloy può sostenere una conversazione che segue i prompt durante il gameplay, per esempio affermando di stare bene, solo di avere un po’ di mal di gola alla domanda “Come stai?”. Si può poi osservare come Aloy si esprima sul tempo meteo nel gioco e su quale momento del giorno (virtuale) sia in quel preciso momento. A cosa serve questo prototipo? In un futuro prossimo si potranno incontrare npc (personaggi non giocabili) molto più realistici e credibili, che potranno garantire un’interazione più coinvolgente e meno posticcia col giocatore umano. Potranno quindi anche adattare risposte e comportamenti con più variabili, potendo addirittura comprendere il parlato del gamer in carne e ossa e reagire di conseguenza.

Fonte : Wired