Meta ha imbrogliato sui benchmark della sua AI

Meta, secondo quanto riportato da Kylie Robinson di The Verge, avrebbe mentito sulle prestazioni degli ultimi due modelli AI rilasciati durante il fine settimana: Scout, un modello più piccolo dedicato a query rapide, e Maverick, destinato a essere il rivale di ChatGpt-4o. In occasione dell’annuncio, come accade sempre più spesso di recente, Meta ha presentato una serie infinita di dati tecnici per avvalorare la tesi che la sua AI fosse migliore rispetto a quella di competitor come Google, OpenAI e Anthropic. E, per quanto questi siano risultati incomprensibili alla maggior parte delle persone che li hanno letti, qualcuno di più esperto ha notato che l’annuncio della compagnia nascondeva qualche errore impossibile da sottovalutare.

A quanto pare, infatti, Meta ha dichiarato che Maverick ha avuto un punteggio ELO di 1417 in LMArena, una piattaforma di benchmarking in cui gli utenti votano il migliore output dei modelli AI. Un valore alto, che ha messo Maverick al secondo posto di una classifica che lo vede appena sopra a Gpt-4o e poco sotto a Gemini 2.5 Pro. Quello di cui solo qualcuno si è accorto, però, è che a ottenere un risultato tanto alto è stata una versione del tutto diversa da quella rilasciata agli utenti, Llama-4-Maverick-03-26-Experimental, “un modello personalizzato per ottimizzare le preferenze umane” e migliorare la conversazione con gli utenti. Un dettaglio che non è affatto passato inosservato agli esperti del settore, che hanno notate che le risposte fornite da Maverick sono di gran lunga meno articolate rispetto a quelle segnalate su LMArena.

X content

This content can also be viewed on the site it originates from.

In ogni caso, considerando che oramai si fa sempre più caso alle prestazioni dei modelli AI rilasciati sul mercato, non c’è da stupirsi che le compagnie di settore siano disposte a mentire per riuscire a guadagnare l’attenzione degli utenti. Un escamotage che non è piaciuto affatto a LMArena, che ha dichiarato il comportamento di Meta tutt’altro che in linea con le aspettative di trasparenza della piattaforma. Nè agli utenti appassionati del settore.

Fonte : Wired