La scorsa settimana Anthropic ha stupito tutti con il live streaming su Twitch del suo nuovo modello AI, Claude 3.7 Sonnet, impegnato a giocare a Pokémon Rosso. E ora, a distanza di qualche giorno, ecco che i ricercatori di Hao AI Lab, un’organizzazione collegata all’Università della California a San Diego, si sono divertiti a testare le prestazioni AI con uno dei giochi più amati di sempre, Super Mario Bros. Il risultato, però, è stato tutt’altro che inaspettato: Claude 3.7 Sonnet, il primo modello AI di ragionamento ibrido, si è rivelato il miglior giocatore in circolazione, seguito dal suo predecessore, Claude 3.5. Quello che stupisce, però, è come i ricercatori siano riusciti a permettere ai modelli AI di giocare.
Secondo quanto riferito da TechCrunch, infatti, il gioco è stato eseguito in un emulatore e integrato con il framework Gaming Agent, che ha consentito all’AI di prendere il controllo di Mario. Questo significa che i modelli sono stati educati sulla base di istruzioni ben precise, del tipo “Se un ostacolo o un nemico è vicino, muoviti/salta a sinistra per schivare”, accompagnate da screenshot del gioco, così da poter capire al meglio come agire in ogni situazione. Nonostante questo, sembrerebbe che il gioco abbia costretto i modelli AI a “imparare” a pianificare manovre complesse e sviluppare strategie di gioco. E il risultato, a detta dei ricercatori, è stato sorprendente: i modelli in grado di ragionare, infatti, hanno finito con l’ottenere risultati peggiori rispetto a quelli “non ragionanti”. E questo perché Super Mario è un gioco che richiede un tempismo impeccabile, mentre molti modelli si sono rivelati troppo lenti nel ragionamento.
In ogni caso, alcuni esperti del settore non sono convinti che la capacità di giocare a Super Mario – o a qualunque altro videogioco – abbia una grande attendibilità quando si tratta di analizzare le prestazioni dei modelli AI. “La mia reazione è che c’è una crisi di valutazione. Non so davvero quali parametri guardare in questo momento”, ha dichiarato in un post condiviso su X Andrej Karpathy, ricercatore e membro fondatore di OpenAI. Eppure, questo sembra contare poco in questo momento. Quello che interessa è vedere un modello AI alle prese con i videogiochi della nostra infanzia.
Fonte : Wired