Al momento del lancio nel novembre 2022, ChatGPT era in grado di elaborare e generare solo testi. Di recente però OpenAI e altre società nel settore hanno migliorato la loro tecnologia per fare in modo che i modelli linguistici potessero lavorare anche con altri tipi di dati. Quando lo scorso dicembre Google ha presentato Gemini, l’azienda ha presentato la natura multimodale del sistema come l’inizio di un nuovo e importante filone nell’AI: “Dopo l’ascesa degli Llm, gli Mllm stanno emergendo come la prossima frontiera dei modelli fondativi“, si legge nel documento di Apple.
MM1 è un modello relativamente piccolo se si prende come riferimento il numero di “parametri”, ovvero le variabili interne che vengono regolate durante l’addestramento. Kate Saenko, docente dell’università di Boston specializzata in computer vision e machine learning, sostiene che proprio le dimensioni del sistema potrebbero rendere più facile agli ingegneri di Apple sperimentare diversi metodi di addestramento e perfezionamento prima di scalare il modello.
Saenko aggiunge che per essere un documento aziendale, la ricerca di Cupertino fornisce una quantità sorprendente di dettagli su come è stato addestrato MM1. Gli ingegneri di Apple descrivono per esempio i trucchi per migliorare le prestazioni del modello, come l’aumento della risoluzione delle immagini e la combinazione di dati testuali e immagini. Pur essendo famosa per la sua segretezza, in passato la società ha dimostrato un’insolita apertura sulla propria ricerca nel campo dell’intelligenza artificiale, nel tentativo di attirare i talenti necessari per competere in nel settore.
I progetti di Apple per l’AI
Secondo Saenko però è difficile trarre conclusioni sui piani di Apple dal documento di ricerca. Anche se i modelli multimodali hanno dimostrato di potersi adattare a molti casi d’uso diversi, la docente ipotizza che MM1 possa rappresentare un passo avanti verso la costruzione di “un qualche tipo di assistente multimodale in grado di descrivere foto, documenti o grafici e di rispondere a domande su questi contenuti“.
In realtà il prodotto di punta di Apple, l’iPhone, ha già il suo assistente AI, Siri. Ma l’ascesa di ChatGPT e dei suoi rivali ha fatto improvvisamente sembrare il sistema, un tempo rivoluzionario, sempre più limitato e superato. Amazon e Google hanno dichiarato che stanno integrando la tecnologia degli Llm all’interno dei loro assistenti, Alexa e Google Assistant, e Big G consente agli utenti Android di sostituire l’assistente con Gemini.
Fonte : Wired