Uno degli ingredienti chiave che hanno fatto di ChatGPT un successo strepitoso è stato l’esercito di addestratori umani che ha permesso al modello di intelligenza artificiale che alimenta il sistema di capire quali risultati sono validi e quali invece vanno scartati. Ora però OpenAI sostiene che affiancare l’AI a queste persone potrebbe contribuire a rendere i suoi software più intelligenti e affidabili.
OpenAI è stata uno dei pionieri nel campo dell’apprendimento per rinforzo con feedback umano (Rlhf, o reinforcement learning with human feedback). Questa tecnica, applicata dall’azienda durante lo sviluppo di ChatGPT, utilizza i contributi dei tester umani per perfezionare i modelli AI e far sì che i suoi risultati risultino più coerenti, meno sgradevoli e più precisi. Le valutazioni fornite dagli addestratori alimentano un algoritmo che guida poi il comportamento del modello. L’Rlhf si è dimostrato determinante sia per rendere i chatbot più affidabili e utili sia per evitare che incappino in comportamenti scorretti.
“L’Rlhf funziona molto bene, ma ha alcuni limiti fondamentali”, spiega il ricercatore di OpenAI Nat McAleese. I feedback umani infatti possono rivelarsi incoerenti, ed è possibile che anche le persone più esperte abbiano difficoltà a valutare risultati estremamente complessi, come il codice di un software sofisticato. L’apprendimento per rinforzo con feedback umano inoltre può anche spingere un modello a produrre risultati che sembrino convincenti invece che davvero accurati.
Un’AI per allenare l’AI
Per questo OpenAI ha sviluppato un nuovo modello perfezionando il suo Llm più potente, GPT-4, con l’obiettivo di aiutare gli addestratori umani incaricati di valutare il codice prodotto dall’AI. L’azienda ha scoperto che il nuovo modello, ribattezzato CriticGPT, è in grado di individuare i bug che sfuggono a suoi tester in carne ed ossa, che hanno giudicato gli appunti del nuovo sistema migliori nel 63% dei casi. In futuro OpenAI cercherà di estendere l’approccio anche a settori diversi.
McAese sottolinea però che l’approccio è ancora imperfetto, dal momento che CriticGPT può commettere errori dovuti alle cosiddette allucinazioni dell’intelligenza artificiale. Il ricercatore di OpenAI aggiunge però che l’Rlhf potrebbe contribuire a rendere più precisi i modelli dell’azienda e gli strumenti come ChatGPT, riducendo gli errori legati all’addestramento umano. La tecnica potrebbe rivelarsi cruciale per aiutare i modelli di AI a diventare molto più intelligenti, in quanto potenzialmente consentirebbe agli esseri umani di contribuire all’addestramento di un’AI in grado di superare le loro capacità, continua McAleese. “E siccome i modelli continuano a migliorare, sospettiamo che le persone avranno bisogno di più aiuto“, afferma.
AI più potenti ma anche più sicure
La nuova tecnica è una delle tante attualmente in fase di sviluppo e finalizzate a migliorare i modelli linguistici di grandi dimensioni. Ma rientra anche nell’impegno da parte delle società nel settore a garantire che le AI sempre più capaci si comportino in modo accettabile.
Fonte : Wired