La ragazza con la giacca di pelle nera, un lungo abito rosso e gli occhiali da sole cammina su una strada di Tokyo, nella notte.
L’asfalto bagnato riflette le luci al neon delle insegne luminose alle sue spalle. Potrebbe essere una ragazza qualsiasi, oppure una popolare influencer. Ma in realtà non esiste: è stata creata dalla nuova intelligenza artificiale di OpenAI, chiamata Sora, che genera video realistici a partire da un testo.
La “donna in rosso” di Tokyo è stato il primo esempio di video prodotti da Sora – svelata il 15 febbraio scorso da OpenAI – a diventare virale. È anche il più lungo diffuso finora: dura un minuto, il massimo che si può ottenere con la nuova IA text-to-video. La qualità delle immagini è impressionante. Così come la “regia” dell’IA, che passa dal totale al primissimo piano.
L’unico difetto del video, a prima vista, riguarda il modo in cui avanza la donna. I suoi passi sembrano incerti. Ma è servito rivedere la clip più e più volte per accorgersi, finalmente, che c’era un errore molto più grave nelle immagini prodotte dall’IA: guardate bene al secondo 00:15 e al secondo 00:30 e vi accorgerete che i piedi della donna si invertono “magicamente”.
Settantadue ore dopo il lancio di Sora, dopo la sbornia causata da una IA che il New York Times ha definito “strabiliante”, vengono fuori i primi difetti – alcuni nascosti, altri ben più evidenti – dello strumento creato da OpenAI.
In realtà l’azienda guidata da Sam Altman aveva messo le mani avanti fin da subito, scrivendo nel giorno dell’annuncio di Sora che il nuovo modello ha dei “punti deboli”: “Potrebbe avere difficoltà a simulare accuratamente gli sviluppi di una scena complessa e potrebbe non comprendere istanze specifiche di causa ed effetto – ha scritto OpenAI sul suo blog – Ad esempio, una persona potrebbe dare un morso a un biscotto, ma in seguito il biscotto potrebbe non lasciare il segno del morso”.
“Il modello può anche confondere i dettagli spaziali di un prompt, ad esempio confondendo sinistra e destra” ha aggiunto OpenAi mostrando il video generato da Sora in cui un uomo corre sul tapis-roulant al contrario.
Insieme a questo video, OpenAI ne ha diffusi altri in cui evidenzia volutamente i limiti della sua intelligenza artificiale. Che sono, appunto, palesi. Ma in alcuni casi solo perché sappiamo che dei difetti essitono.
In una clip, tre cuccioli di lupo si moltiplicano. In un’altra, circolata ampiamente sui social, una signora davanti a una torta di compleanno manca clamorosamente le candeline nel momento in cui si accinge a soffiare. E alle sue spalle si vede chiaramente una persona che muove una mano deforme. La scena è qui sotto:
Proprpio una mano sembra penzolare, al posto di quello che dovrebbe essere un telo, in un altro video generato da Sora e pubblicato, sul social network X, da uno dei ricercatori di OpenAI che ha lavorato alla nuova IA: Tim Brooks. Il dettaglio appare in questo video, dietrola sedia a sdraio di sinistra su cui poggia l’uomo.
Nella clip qui sopra tutti gli occhi sono ovviamente puntati sullo squalo, che esce in modo realistico dall’acqua. Solo dopo aver visto e rivisto le immagini ci si accorge della mano “fantasma”, appunto, e del modo innaturale in cui la donna sulla sinistra ruota la testa per manifestare il suo stupore.
Sora, lo sappiamo, non è aperta al pubblico come Runway e Pika, due strumenti simili che da qualche tempo permettono – con risultati non altrettanto straordinari – di produrre video a partire da un testo.
I contenuti che vedete circolare sui social, con il marchio OpenAI (in basso a destra), sono stati unicamente generati dall’azienda californiana e dai suoi dipendenti. Anche Sam Altman, il Ceo di OpenAI, ne ha diffuso alcuni, trasformando i prompt che ha ricevuto dai suoi follower su X. Uno di questi ritrae una “nonna influencer” impegnata in un video tutorial su come preparare gli gnocchi “in una cucina rustica della Toscana”.
Del video qui sopra colpiscono due cose: il modo in cui sono state ricreate le mani – con cui l’IA generativa ha avuto fin da subito grandi problemi – e il fatto che all’improvviso appare (e poi scompare) un cucchiaio nella ciotola.
Nonostante qualche imperfezione, le scene realistiche sembrano essere il pezzo forte di Sora. È stupefacente, per esempio, la breve clip ottenuta con il prompt “ripresa in soggettiva di una formica che si muove all’interno di un formicaio”. O ancora il video che mostra un treno microscopico che si muove sulle venature di una foglia.
Ma poi Sora cade inesorabilmente, sempre per colpa di un dettaglio a prima vista trascurabile, quando produce una scena in cui un gatto sveglia una ragazza che sta dormendo. L’attenzione di chi guarda, in questo caso, è rivolta alla zampa dell’animale che preme sul naso della ragazza.
Ma se si mette da parte la meraviglia iniziale, si noterà che al gatto quella zampa si sdoppia per qualche istante. E che tra le lenzuola, in basso a destra, spunta in modo innaturale una mano che non è ben collegata al movimento del corpo della donna.
È proprio sulla “meraviglia” che punta OpenAI. I video di Sora pubblicati sui social sono stati accuratamente selezionati, di certo sono i migliori prodotti finora. Oppure sono quelli a prima vista più sorprendenti.
È facile ingannare chi guarda, perché la valutazione dei video di Sora avviene ben prima di cliccare “Play”: inizia dalla lettura del prompt, che rende le immagini a cui è associato più “magiche” di quanto sono in realtà. Il “trucco”, se di trucco possiamo parlare, sta nella nostra razionalità: non si riesce a credere che una macchina, usando solo una manciata di parole fantasiose, sia in grado di replicare in modo così armonioso i movimenti di una metropoli o della natura.
Stiamo parlando, in fondo, di macchine che non comprendono il significato di ciò che fanno: sono solo estremamente brave a predire, dato un determinato contesto, quale contenuto ha più possibilità di apparire dopo un altro. ChatGpt ci riesce con le parole. E se questo ci è apparso straordinario, cosa dovremmo pensare di una tecnologia in grado di predire frame dopo frame lo svolgimento di una scena che implica infinite (e complesse) variabili?
Insomma, è difficile non restare a bocca aperta.
Prendete per esempio il video qui sotto, ottenuto dal prompt “New York City sommersa come Atlantide”. Chi guarda si sofferma sulla miriade di pesci che “nuotano” tra i grattacieli, come se si trovasse davvero al cospetto di una città sommersa. Ma a uno sguardo più attento non sfuggirà, in basso, il vero livello dell’acqua, che di fatto non ha sommerso la metropoli.
La “strategia” di OpenAI – che con il marketing ha dimostrato di saperci fare – ha funzionato, a quanto pare, anche con gli investitori. Poche ore dopo aver annunciato Sora, OpenAI ha chiuso un accordo economico che ha fissato la sua valutazione di mercato a oltre 80 miliardi di dollari.
Ma Sora è una tecnologia ancora giovane. Esattamente come lo era, un anno fa, Dall-E, l’IA di OpenAI che genera foto realistiche a partire da un testo.
Anche gli esempi diffusi dall’azienda di Sam Altman per pubblicizzare quel modello – che all’epoca era noto come Dall-E 2 – erano straordinari. Ma all’inizio gli utenti ottenevano, nella maggior parte dei casi, risultati insoddisfacenti. Solo a partire da Dall-E 3, l’attuale modello text-to-image di OpenAI, le immagini generate hanno fatto un grande balzo in avanti in termini di consistenza e qualità.
La sensazione è che Sora, una volta aperta al pubblico, affronterà gli stessi problemi – e probabilmente la stessa evoluzione – di Dall-E.
Fonte : Repubblica