Un nuovo modello di intelligenza artificiale, chiamato EMO, consente di animare immagini statiche – come foto oppure le opere d’arte – in modo sorprendente.
Che sia una persona, un’illustrazione o un volto di un’opera d’arte, EMO è capace di generare espressioni facciali e movimenti naturali della testa in base all’audio – parlato o cantato – che viene fornito all’intelligenza artificiale.
Sui social gli utenti hanno condiviso i primi frutti di questa nuova IA generativa:
A sinistra, nella clip qui sopra, c’è *un singolo* frame di uno dei primi filmati generati da Sora, la nuova intelligenza artificiale text-to-video di OpenAI. Lo ricorderete è quello in cui una donna cammina su una strada di Tokyo, con la metropoli illuminata a giorno dalle insegne al neon.
A destra, quel frame è stato animato da un’altra IA generativa sviluppata dai ricercatori di Alibaba, il colosso cinese dell’e-commerce. Il modello si chiama EMO e produce videoritratti espressivi a partire da un audio. Il limite (per ora) è che i volti e gli sguardi animati dall’IA conserveranno la posizione e l’orientamento che hanno nei frami di riferimento.
In pratica, dicono i ricercatori di Alibaba, “fornendo una singola immagine di riferimento e un audio – un contenuto parlato o cantato – il modello è in grado di animare le persone ritratte con tanto di espressioni facciali accurate e movimenti della testa”.
Il risultato è straordinario. La “donna in rosso” di Sora si “esibisce” con un labiale perfetto, muove le sopracciglia, la testa e più in generale adatta le sue espressioni facciali all’intonazione, alle pause e persino al respiro del brano che le è stato “assegnato”: Don’t Start Now di Dua Lipa.
Questo avviene perché EMO, in sintesi, riconosce l’onda sonora e genera singoli frame video che la rispecchiano. “Questo gli permette di catturare i movimenti sottili e le peculiarità individuali associate al parlato naturale”.
EMO se la cava bene, a giudicare dalle prime demo diffuse, anche con il semplice parlato. È impressionante per fluidità e realismo, per esempio, il monologo di Joaquin Phoenix nei panni di Joker ricavato da un semplice fotogramma estratto dal film del 2019 sul cattivo di Gotham City.
“Il nostro modello supporta canzoni in varie lingue e dà vita a diversi stili di ritratto [dalle foto ai disegni, alle opere d’arte: ha fatto parlare anche la Gioconda]. E riconosce intuitivamente le variazioni del tono nell’audio” scrivono i ricercatori di Alibaba nel loro documento pubblicato su arXiv, una piattaforma che consente di condividere studi scientifici in varie discipline che non sono ancora stati sottoposti alla revisione formale dei “peer”, vale a dire altri esperti nel campo di ricerca di riferimento.
Fonte : Repubblica