Apple ha annunciato il lancio di Mgie, un nuovo modello di intelligenza artificiale open source in grado di modificare le immagini seguendo le istruzioni scritte dall’utente.
Il sistema è il risultato di una ricerca condotta in collaborazione con l’Università della California – Santa Barbara e si basa sul principio dell'”editing guidato delle immagini”, che sfrutta le potenzialità dei modelli linguistici multimodali di grandi dimensioni (Mllm) per interpretare le richieste espresse in linguaggio naturale e manipolare un contenuto agendo a livello di pixel.
“Le indicazioni degli esseri umani sono talvolta troppo brevi perché i metodi attuali possano recepirle e seguirle. Gli Mllm hanno capacità promettenti per quanto riguarda la comprensione cross-modale e la generazione di risposte visive attraverso modelli linguistici di grandi dimensioni. […] Mgie impara a ricavare istruzioni efficaci e offre una guida chiara“, spiegano gli autori della ricerca.
Cosa può fare Mgie
Mgie utilizza gli Mllm in due modi. Per prima cosa, l’AI di Apple orienta il processo di editing estrapolando istruzioni concise e chiare dalle richieste testuali inserite dall’utente. Inserendo per esempio la richiesta “rendi l’erba più verde” in relazione ala fotografia di un paesaggio, il sistema reinterpreta il prompt e genera un nuovo comando – che in questo caso sarà “aumenta la saturazione del colore nella regione dell’erba del 20%” – su cui baserà le modifiche.
In una seconda fase, Mgie utilizza i modelli multimodali di grandi dimensioni per rappresentare graficamente la modifica desiderata, cogliendo l’essenza delle istruzioni e manipolando l’immagine pixel per pixel. L’addestramento a cui è stato sottoposto Mgie consente al quindi modello di modificare un contenuto in assenza di un contesto esteso e in risposta a comandi ambigui.
Oltre a regolare il colore, la temperatura, l’illuminazione, la dimensione e l’orientamento di un’illustrazione, Mgie può intervenire anche a un livello più profondo, cambiando l’espressione in un ritratto, aggiungendo o rimuovendo elementi specifici, modificando lo sfondo o combinando due grafiche. Tutte le opzioni possono essere applicate a l’intera immagine o a specifiche aree, a seconda delle preferenze dell’utente.
Il sistema promette insomma di ridurre i tempi di editing e di ottimizzare l’uso di strumenti di AI generativa per offrire una migliore esperienza all’utente, che può poi personalizzare i risultati ottenuti aggiungendo ulteriori suggerimenti.
Come provare la nuova AI di Apple
Il nuovo modello di intelligenza artificiale di Apple è disponibile su GitHub come progetto open source. All’interno della piattaforma, è possibile consultare tra gli altri il codice, i dati di addestramento e un manuale che spiega come utilizzare Mgie in vari scenari di editing.
Fonte : Wired