L’IA e il serpente dell’Inter: una lezione su come si creano immagini e video

Tra le tante promesse dell’intelligenza artificiale generativa, c’è quella di poter generare un’immagine perfetta o un video realistico, degno di Hollywood, con un prompt e un semplice clic.

Ma la realtà è ben diversa. Non basta una descrizione estremamente precisa per ottenere da un’IA l’immagine desiderata. E anche il migliore dei registi, con le idee molto chiare, troverebbe delle difficoltà a replicare i movimenti della camera che ha in testa utilizzando uno dei tanti strumenti text-to-video [capaci cioè di produrre una clip a partire da un testo] che sono nati dopo l’avvento di ChatGpt: da Sora di OpenAI a Runway fino a Kling AI.

Negli ultimi mesi abbiamo visto diverse pubblicità prodotte unicamente con l’IA. I video promozionali, brevi e dinamici, si adeguano alla perfezione allo stato dell’arte dell’intelligenza artificiale, che consente di trasformare una foto statica in un video animato di pochi secondi.

Anche l’Inter ha recentemente puntato sull’IA per produrre un breve video con cui augurare “buon anno del serpente” ai tifosi cinesi della società calcistica di Milano.

Si tratta di una clip di 44 secondi che, attraverso un mix di stili e tecniche di animazione AI, trasforma il serpente – animale simbolo del club nerazzurro – in un’opera d’arte digitale.

Il video è il frutto di un attento lavoro di progettazione e rifinitura da parte di una nuova figura professionale emergente: l’AI Artist. Un ruolo che fonde le competenze tradizionali di grafica, regia, fotografia e scrittura creativa con la conoscenza avanzata degli strumenti di intelligenza artificiale generativa.

Per realizzare un prodotto di questo livello non basta affidarsi agli algoritmi. Gli strumenti generativi sono potenti, ma senza una direzione artistica consapevole, rischiano di produrre risultati errati o incoerenti.

Ne abbiamo parlato con Katya Vettorello, esperta di Graphic Art & Image Editing, che insieme a Guido Callegari (Senior Art Director) e Simone Bonzano (Senior Video Producer) ha contribuito alla creazione del video dell’Inter.

Quanto lavoro è costato il video commissionato dall’Inter?

“Cinque o sei giorni per afferrare appieno l’idea e adattare lo script, e in seguito innumerevoli ore e notti. Il progetto è durato dalla fase iniziale un mese e mezzo”.

E quante immagini avete generato per raggiungere il risultato desiderato?

“Posso dire le mie. Mi sono occupata dei primi due stili che compaiono nel video. Ho generato circa 800 immagini. In media, per ogni stile, sono state prodotte circa 500 immagini, che poi sono state trattate in post-produzione con Photoshop”.

Tante ore di lavoro e migliaia di immagini prodotte con l’IA per un video di appena 44 secondi. Possiamo dire che l’IA che genera un video perfetto con un clic è ancora un’affascinante promessa?

“Assolutamente sì”.

E possiamo anche dire che un video come quello dell’Inter non può farlo una persona sola, utilizzando l’IA?

“Vero anche questo. Per ottenere un risultato di qualità, sono necessarie almeno dieci figure con competenze fondamentali, che spaziano dalla capacità di scrivere e adattare una sceneggiatura – dato che inizialmente si lavora su uno storyboard o uno script – fino alla capacità di modificarlo durante il processo di produzione, proprio come avviene nell’adattamento dello script durante le riprese di un film”.

Il backstage del video creato con l’IA che spiega come è stato realizzato:

Il backstage del video dell’Inter fatto con l’IA: quanto lavoro per un serpente

Tra le figure coinvolte nel progetto dell’Inter, ci sono AI Artist come lei. Come descriverebbe questo nuovo profilo professionale?

“Un AI artist integra le competenze tradizionali di grafica e fotoritocco, per esempio, con quello che oggi offre l’IA generativa”.

Si può diventare AI Artist senza avere competenze specifiche nel campo della regia, della fotografia o della grafica, così come in passato abbiamo assistito alla nascita di musicisti grazie a strumenti come campionatori e sintetizzatori?

“Non credo. Se prendi un sintetizzatore senza saperlo usare, finisci per adoperarlo in modo del tutto casuale, come potresti fare con uno smartphone. Per quanto certi strumenti possano ridurre alcune barriere, non basta: devi comunque conoscere a fondo ogni singolo elemento dei contenuti che produci. A titolo personale, ammetto di non avere grandi conoscenze di regia, ed è per questo che non mi cimento nel realizzare un intero video. Provengo dalla fotografia e dall’“editing selvaggio” di immagini, dove l’immagine stessa rappresenta una base ideale su cui costruire l’elaborazione successiva, destinata poi all’animazione, con uno storyboard che oggi fa parte di tutto il processo, non solo della pre-produzione. Sono dunque un tassello fondamentale, ma non completamente autonomo, perché mi mancano diverse nozioni di regia”.

Perché è importante studiare il cinema per diventare una AI Artist completa?

“Per comunicare in modo efficace, l’immagine va concepita come una fotografia o come se si lavorasse su un set. Devi sapere, per esempio, che se qualcuno ti dice “riprendi questa ambientazione”, la telecamera seguirà un percorso preciso quando crei l’immagine; inoltre, è indispensabile conoscere che tipo di illuminazione serve per ottenere un determinato risultato, anche se devi soltanto descriverlo a parole a una IA”.

Perché l’AI Artist sta diventando una figura indispensabile?

“Nella fase iniziale di un progetto, è colui o colei che segnala, a chi presenta lo script, che certe soluzioni non sono possibili. Perché sappiamo bene, appunto, che per certe cose l’IA non ha ancora una soluzione”.

Può farci un esempio dei limiti incontrati dall’IA per il video dell’Inter?

“Una delle principali difficoltà nella generazione di immagini è legata all’influenza determinante delle proporzioni sul risultato finale. Ad esempio, se si desidera generare un serpente in un formato 16:9, è probabile che venga rappresentato disteso in un bosco. Se invece l’obiettivo è enfatizzare la testa e la parte superiore del corpo, il 16:9 non è il formato ideale, potrai provarci all’infinito ma otterrai sempre un rettile che striscia. Se si desidera un serpente con la testa alzata, è preferibile lavorare in 9:16 o in un formato verticale”.

Come si arriva a una valutazione di questo tipo?

“attraverso centinaia di immagini e test. Non basta scrivere un prompt dettagliato se non si conoscono le basi tecniche: senza una comprensione delle impostazioni, il risultato potrebbe discostarsi dalle aspettative”.

Quali altri “trucchi” adoperate per raggiungere i risultati desiderati?

“Su Midjourney [una potente IA che produce immagini realistiche, ndr] per esempio è essenziale usare mood board e profili personalizzati. Lavoriamo con stili predefiniti che abbiamo sviluppato e che fungono da riferimento visivo, includendo elementi come la palette cromatica, la texture e il tipo di illustrazione. Ad esempio, se desideri un’illustrazione in stile flat, è utile immaginarla come un disegno realizzato su carta con schizzi preliminari. Raccogliere immagini di riferimento in una moodboard aiuta a mantenere la coerenza stilistica, riducendo così il lavoro di post-produzione, che rimane comunque una fase cruciale e complessa”.

Anche la semplice modifica di un’immagine – attraverso l’IA – rischia di diventare un’operazione complessa. Come mai?

“L’IA generativa si fonda su un’elaborazione continua dei dati: ogni volta che apporti anche la più piccola modifica, l’algoritmo rielabora completamente l’immagine. Per questo, anche se l’immagine che hai modificato sembra pressoché identica a quella precedente salvo i dettagli su cui hai lavorato, in realtà è diversa dall’originale in altri elementi. Tenendo presente questo aspetto, è normale accettare di non ottenere mai esattamente ciò che si aveva in mente, a meno di ricorrere a strumenti open source molto avanzati, che richiedono un alto livello di competenze, hardware specifico e uno studio approfondito”.

Un altro problema, enorme, che incontra chi vuole produrre immagini con l’IA e la consistenza dei personaggi: non è possibile – in modi obiettivamente semplici – generare due immagini che abbiano per protagonista la stessa persona. Come si può ovviare a questo problema?

“Faccio un esempio per chi utilizza Midjourney. Quando scrivi il prompt e alleghi un’immagine di riferimento, a cui l’IA deve ispirarsi per il contenuto che andrà a produrre, puoi specificare che quella determinata immagine venga utilizzata come “character reference”, ossia che il personaggio raffigurato mantenga lo stesso aspetto nelle generazioni che seguiranno. Se si desidera che il personaggio rimanga il più possibile identico, dovremo assegnare un valore elevato (ad esempio 100); se invece si intende consentire all’IA qualche variazione, nell’ambientazione o nei vestiti che il personaggio indossa, per esempio, si sceglie un valore più basso (ad esempio 10). In questo modo, affiancando una moodboard completa con le immagini del personaggio in varie pose, si ottiene un risultato molto vicino al personaggio desiderato, con tutte le angolazioni di cui si ha bisogno”.

Cos’è che la fa stare sveglia la notte, a produrre immagini con un’intelligenza artificiale?

“La meraviglia di vedere davanti agli occhi quello che hai nella mente. Come fosse una Polaroid che si materializza piano piano”.

Fonte : Repubblica