OpenAI, con GPT-4.5 continua a puntare su AI sempre più grandi

Nel post con cui ha annunciato la novità OpenAI ha incluso i risultati riportati da GPT-4-5 su diversi benchmark accademici. Il modello viene ampiamente superato da o3-mini per quanto riguardo i compiti matematici e di poco su quelli scientifici, ottenendo però un punteggio leggermente superiore nei benchmark linguistici. I ricercatori tuttavia sottolineano che queste misurazioni non restituiscono un quadro completo. Glaese dice che le richieste relative ad argomenti come la scrittura o la programmazione possono dare risultati migliori, e che gli scambi sembrano complessivamente più “naturali. La dirigente di OpenAI spera che le prime chat aiutino a capire meglio in cosa GPT-4.5 eccelle e i suoi limiti.

La strategia di OpenAI

A differenza di quelli lanciati come parte della serie “o”, GPT-4.5 non è considerato un modello di ragionamento. All’inizio di febbraio l’amministratore delegato dell’azienda Sam Altman ha scritto sui social media a che OpenAI avrebbe “distribuito GPT-4.5, il modello che internamente abbiamo chiamato Orion, come ultimo modello non basato sulla catena del pensiero“. Nick Ryder, che dirige il team di ricerca sui dati e lo scaling di OpenAI, ha chiarito che le parole di Altman si riferivano a una semplificazione della road map dei prodotti di OpenAI e non ai piani sulla ricerca. Anche se la startup non sta esplorando solo di modelli di ragionamento, in futuro possiamo aspettarci versioni di ChatGPT in cui non sarà necessario scegliere quale modalità utilizzare.

Dire che questo è l’ultimo modello senza capacità di ragionamento significa che stiamo cercando di andare verso un futuro in cui tutti gli utenti vengono indirizzati al modello giusto“, dice Ryder. Quando si accederà a ChatGPT, insomma, l’AI dovrebbe essere in grado di valutare quale modello utilizzare in risposta alle richieste.

Nonostante la crescente pressione generata dai suoi concorrenti, OpenAI vuole continuare a essere considerata l’avanguardia del settore. E per farlo sta investendo nel pretraining. “Aumentando la quantità di calcolo, aumentando la quantità di dati che utilizziamo e concentrandoci su metodi di addestramento davvero efficienti“, afferma Ryder.

Ma le (presunte) notevoli dimensioni di GPT-4.5 rendono più difficile analizzare ciò che accade all’interno del modello? Ryder non pensa che l’interpretabilità del sistema – ovvero il tentativo di capire perché un modello genera determinati output – sarà complicata dalla grandezza del sistema, ma che anzi si possano applicare gli stessi metodi utilizzati per i modelli più piccoli.

Wired testerà GPT-4.5 per capire come si posiziona rispetto alla concorrenza e i modelli precedenti di OpenAI. Il confronto con le altre offerte dell’azienda potrebbe però essere complicato dal fatto che a OpenAI descrive come punti di forza di GPT-4.5 una migliore intuitività, una maggiore intelligenza emotiva e un gusto estetico che sembrano sottintendere quasi un vago antropomorfismo. La startup insomma sembra voler costruire un’intelligenza artificiale in grado di eguagliare la produttività di un lavoratore da remoto, e ora spera di aggiungere anche le soft skills.

Questo articolo è apparso originariamente su Wired US.

Fonte : Wired