OpenAI ha appena svelato Sora, il suo primo modello di IA capace di generare video a partire da un testo.
La qualità delle immagini, nonché la fluidità dei movimenti dei soggetti e delle camere, sono impressionanti.
E impressionante è il fatto che si possono ottenere – a quanto pare – clip che possono durare fino a un minuto.
OpenAI ha diffuso alcuni esempi di contenuti generati da Sora, come quello di una ragazza che cammina nella notte, a Tokyo, e che è stato ottenuto digitando questo prompt:
“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about”.
Esistono già strumenti simili a Sora, e anche aperti al pubblico, ma nessuno di questi – si pensi a Runway AI per esempio – è in grado di produrre clip della durata di un minuto come quelle diffuse da OpenAI.
Sul suo blog ufficiale, OpenAI scrive che “Sora è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati dei soggetti e dello sfondo. Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come i diversi elementi coesistono nel mondo reale”.
Sora al momento non è aperta al pubblico. Non si può provare insomma. Ma il Ceo dell’azienda che ha creato ChatGpt, Sam Altman, ha chiesto agli utenti di inviare – attraverso il social network X – le idee che vorrebbero trasformare in video. Altman ha usato alcuni di questi prompt per creare dei video con Sora, che poi ha pubblicato sul suo account.
Fa sorridere – ma fino a un certo punto, a pensarci bene – lo scambio, sempre su X, tra Altman e uno degli youtuber più famosi al mondo, MrBeast, che al Ceo di OpenAI scrive ironicamente: “Per favore non farmi diventare un senzatetto”. Il riferimento è alle capacità di Sora, ovviamente, e all’impatto che potrebbe avere sul futuro dei content creator, dei registi, degli attori e di tutti coloro che più in generale lavorano nell’industria cinematografica e televisiva.
OpenAI, per ora, ha messo questo nuovo modello a disposizione dei “red team” che individuano eventuali falle della sicurezza dell’IA e di un gruppo ristretto di visual artist e filmmaker a cui è stato chiesto di fornire dei “feedback”.
Allo stupore per le immagini perfette create a partire da un semplice testo si associano diversi timori. C’è il rischio, per esempio, che una simile tecnologia renda ancora più semplice produrre deepfake. E poi c’è la questione ambientale: generare una semplice immagine con l’IA ha un impatto significativo sulle risorse del pianeta. Per creare un video di 60 secondi servirà ancora più potenza di calcolo e dunque ancora più energia.
prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field”
OpenAI ha messo in luce per ora gli attuali difetti tecnici:
“Il modello attuale presenta dei punti deboli. Potrebbe avere difficoltà a simulare accuratamente i movimenti di una scena complessa e potrebbe non comprendere istanze specifiche di causa ed effetto. Ad esempio, una persona potrebbe dare un morso a un biscotto, ma in seguito il biscotto potrebbe non lasciare il segno del morso”.
“Il modello può anche confondere i dettagli spaziali di un prompt, ad esempio confondendo sinistra e destra, e può avere difficoltà con descrizioni precise di eventi che si verificano nel tempo, come seguire una specifica traiettoria della telecamera”.
Fonte : Repubblica