ChatGpt potenzia la generazione di immagini: l’IA crea gratis foto (e fumetti) con testi precisi

OpenAI ha introdotto un importante aggiornamento delle capacità di generazione di immagini di ChatGpt.

“È una tecnologia incredibile” ha affermato Sam Altman, CEO di OpenAI, l’azienda che ha creato ChatGpt.

“Ricordo di aver visto alcune delle prime immagini create da questo modello e di aver avuto difficoltà a capire che fossero state realizzate dall’intelligenza artificiale”, ha aggiunto.

Come si usa il nuovo generatore di immagini?

Dopo aver effettuato l’accesso a ChatGpt, è possibile selezionare il modello Gpt-4o – in alto a sinistra, dal menu a tendina – e poi scrivere direttamente nel box riservato al testo “Crea un’immagine di […]” oppure “Crea una foto realistica di […]” o ancora “Crea un’illustrazione di […]”.

Volendo, tra le icone degli strumenti sotto al box per il testo, si può premere quella con il pennello per specificare al modello di IA che tutto ciò che scriveremo si intende rivolto alla creazione di un’immagine.

Cosa è migliorato?

L’aggiornamento di OpenAI incorpora la generazione di immagini nativa in ChatGpt.

In pratica il modello multimodale GPT-4o, uno dei più potenti addestrati finora da OpenAI, fonde senza soluzione di continuità l’elaborazione di testo e immagini.

A differenza delle versioni precedenti che si affidavano a sistemi separati, come il modello text-to-image DALL-E 3, questa versione opera come un sistema unificato, attingendo alla vasta base di conoscenze e alla comprensione contestuale di ChatGpt.

OpenAI afferma che tutto ciò si traduce in risultati più precisi, dettagliati e coerenti rispetto al passato. E da quello che abbiamo potuto vedere anche noi, creando diverse immagini dal prompt più o meno “complicato”, ciò che afferma l’azienda guidata da Sam Altman corrisponde al vero.

In precedenza la generazione di immagini di ChatGpt aveva difficoltà nel produrre immagini a partire da richieste complesse: Dall-E 3 generava spesso risultati incoerenti o confusi quando si trattava di rappresentare più oggetti o scene intricate.

Un aspetto interessante è la nuova possibilità di modificare le immagini caricate dall’utente, aggiungendo o rimuovendo elementi grazie all’intelligenza artificiale.

È possibile anche utilizzare un’immagine come fonte di ispirazione per l’IA, sempre attraverso un semplice upload del file.

Molto intrigante anche la capacità di ChatGpt di ricreare la stessa immagine da un’altra angolatura, senza stravolgere troppo quella di partenza.

Tempi di attesa e limiti di ChatGpt per le immagini

Dai primi test che abbiamo effettuato, è apparsa subito evidente la capacità di ChatGpt di creare immagini innanzitutto più realistiche rispetto al passato.

Il prezzo da pagare è l’attesa: immagini più dettagliate richiedono evidentemente un tempo di elaborazione e una potenza di calcolo maggiore.

Per averne una è necessario aspettare anche un paio di minuti, mentre in precedenza la richiesta poteva essere evasa dall’IA anche in meno di 60 secondi.

Continuano a essere proibite le immagini inappropriate, offensive, violente, oscene.

“Le persone creeranno cose davvero sorprendenti e altre che potrebbero offendere alcune persone – ha detto Sam Altman -. Ciò a cui vorremmo puntare è che lo strumento non crei contenuti offensivi a meno che gli utenti non lo vogliano, nel qual caso lo fa entro limiti ragionevoli. Come abbiamo detto nelle specifiche del nostro modello, pensiamo che mettere questa libertà intellettuale e questo controllo nelle mani degli utenti sia la cosa giusta da fare, ma osserveremo come va e ascolteremo la società. Pensiamo che rispettare i limiti molto ampi che la società alla fine sceglierà di stabilire per l’intelligenza artificiale sia la cosa giusta da fare: è sempre più importante man mano che ci avviciniamo all’AGI”.

A differenza di Grok, l’IA di Elon Musk, non è possibile creare immagini di personaggi famosi o riconoscibili.

Ma lo stesso discorso non vale per i marchi celebri: siamo stati in grado di creare senza problemi una borsa con la scritta Gucci che l’IA ha addirittura adornato, senza che lo chiedessimo, con le stampe tipiche della rinomata casa di moda.

Il nostro esperimento

Chi può generare immagini con ChatGpt

OpenAI ha comunicato che il nuovo modello per generare immagini è disponibile sia per gli utenti che pagano un abbonamento mensile, sia per quelli che accedono al chatbot gratuitamente.

Ciò che cambia, ovviamente, è il numero di richieste che si possono fare. Un limite direttamente proporzionale al costo della tariffa mensile: chi più paga, più può chiedere. Questo vale per tutti i prodotti di OpenAI, dalla generazione di semplice testo alla produzione di video attraverso Sora.

Capacità di scrittura sulle immagini

Uno dei miglioramenti più notevoli di Gpt-4o è la sua capacità di inserire testo all’interno delle immagini.

I modelli di OpenAI precedenti – così come quelli che alimentano le piattaforme popolari in circolazione per la creazione di immagini, da Midjourney a Ideogram – hanno spesso prodotto testi confusi, comprensibili solo in parte o illeggibili.

Gabriel Goh, uno dei ricercatori che ha contribuito al potenziamento di Gpt-4o, ha sottolineato che perfezionare la resa del testo è stato un processo di iterazione durato mesi.

ChatGpt può ora generare sulle immagini addirittura paragrafi di testo precisi e coerenti, etichette senza sbavature e persino font stilizzati senza errori, una caratteristica che lo rende immediatamente lo strumento ideale per chi intende realizzare poster, diagrammi e fumetti.

Ad esempio, gli utenti possono ora richiedere un diagramma scientifico come l’esperimento del prisma di Newton con componenti correttamente etichettati o una striscia a fumetti con testo leggibile: tutti compiti che avrebbero messo in difficoltà i modelli precedenti.

Questo balzo nella precisione del testo apre ovviamente nuove possibilità per strumenti educativi, materiali di marketing e narrazione creativa.

La reazione degli utenti

La risposta degli utenti di OpenAI al nuovo modello per la generazione di immagini è stata estremamente positiva: in molti si sono riversati su piattaforme come X per condividere le loro esperienze e le loro creazioni.

I post su X evidenziano la capacità dell’IA di trasformare prompt semplici in immagini vivide e dettagliate, con le strisce a fumetti che emergono come un caso d’uso particolarmente popolare.

Un utente ha scritto su X che il nuovo generatore di immagini “sembra sorprendentemente umano”, mentre un altro ha elogiato la capacità dell’IA di convertire un biglietto di Natale in un’illustrazione in stile Studio Ghibli, completa di testo accurato.

Diversi utenti hanno mostrato come è ora possibile descrivere un fumetto a quattro pannelli—specificando personaggi, dialoghi o azioni e ricevere un output elaborato e coerente in pochi istanti.

Oltre ai fumetti, gli utenti hanno identificato altri casi d’uso interessanti.

I designer stanno sfruttando lo strumento per creare loghi e poster promozionali, mentre gli educatori vedono potenziale nella generazione di infografiche per le lezioni.

I team dei social media, infine, stanno sperimentando con immagini rapide e accattivanti per post e annunci.

Sam Altman ha scritto su X che “la nuova tecnologia di OpenAI rappresenta un traguardo per la libertà creativa”.

Fonte : Repubblica