Allucinazioni dell’intelligenza artificiale, è possibile bloccarle

Tutto ciò, però, significa curare i sintomi, non la malattia. Un metodo che cerca invece di andare alla radice del problema va sotto l’acronimo Rag (retrieval augmented generation) e prevede di affiancare gli Llm con un motore di ricerca, permettendogli quindi di reperire informazioni online in tempo reale invece di affidarsi esclusivamente al dataset tramite il quale è stato addestrato.

Nel momento in cui chiediamo qualcosa alla versione a pagamento di ChatGPT (che è già dotato, come anche altri modelli, della capacità di cercare online), il sistema setaccia la rete a caccia di informazioni, utilizzando le classiche parole chiave. Una volta ottenute le fonti, ChatGPT sfrutta le sue vere qualità – riassumere e parafrasare – per generare un contenuto più affidabile.

Attenzione, però: questo metodo permette di ridurre la frequenza delle allucinazioni, ma non risolve completamente il problema. Per esempio, mentre la versione base di ChatGPT mi attribuisce solo libri che non ho mai scritto, quella a pagamento restituisce inizialmente delle informazioni corrette, ma poi mi definisce autore anche di un paio di saggi che in realtà ho soltanto tradotto. Grazie alla capacità di cercare online, le allucinazioni di cui è vittima sono quindi meno gravi, ma il sistema non è comunque sufficientemente accurato.

Le altre proposte

Per mitigare ulteriormente il problema si stanno sperimentando vari altri metodi. Nvidia ha recentemente annunciato NeMo Guardrails, un software open-source progettato per impedire ai chatbot di generare affermazioni false. Le aziende che impiegano NeMo possono infatti configurare delle barriere che impediscono ai loro chatbot di trattare argomenti per i quali non hanno ricevuto un addestramento specifico: un chatbot destinato all’assistenza clienti non risponderà così a domande relative alla sanità o alla politica. Ovviamente, questo sistema è utile soltanto ai chatbot progettati per usi specifici e non a quelli di uso generale. In più, non avrebbe probabilmente impedito al chatbot di Air Canada di offrire ai clienti uno sconto inesistente.

Un altro metodo sul quale si sta facendo ampio affidamento è il cosiddetto Rlhf (reinforcement learning from human feedback). Come dice il nome, il Rlhf prevede che siano degli esseri umani a valutare la gamma di risposte generate dall’intelligenza artificiale in risposta a una singola domanda, indicando quindi quale tra queste sia la migliore. Se svolto su scala sufficiente, questo metodo può aiutare a creare modelli più accurati e che non scadano, come più volte è accaduto, in affermazioni sessiste, offensive, razziste e altro.

Fonte : Wired