Negli ultimi tempi, i modelli linguistici di grandi dimensioni si sono imposti come un nuovo tipo di tecnologia particolarmente e potenzialmente rivoluzionario. Le potenzialità di questi sistemi sono diventati oggetto di grande attenzione mediatica dalla comparsa di ChatGPT, il sorprendente chatbot lanciato appena un anno fa da OpenAI.
Nei mesi successivi, la ricerca di nuovi metodi per “craccare” i sistemi di intelligenza artificiale è diventato un passatempo popolare per diversi utenti e per le persone interessate alla sicurezza e all’affidabilità delle AI. Inoltre, molte le startup stanno costruendo prototipi e prodotti completi sulla base delle Api dei modelli linguistici. A novembre, OpenAI ha dichiarato che oltre due milioni di sviluppatori stanno utilizzando le sue interfacce di programmazione dell’applicazione.
Gli Llm si limitano a prevedere il testo che dovrebbe seguire un determinato input, ma vengono addestrati su grandi quantità di testi provenienti dal web e da altre fonti digitali utilizzando un numero enorme di chip per diverse settimane o addirittura mesi. Con un numero sufficiente di dati e un addestramento adeguato, i modelli linguistici sono in grado di rispondere a una straordinaria gamma di input con informazioni coerenti e pertinenti.
Questi modelli mostrano però possono riprodurre i pregiudizi contenuti nei loro dati di addestramento e tendono a fornire informazioni false quando le richieste degli utenti diventano meno semplici. In assenza di misure di salvaguardia adeguate, possono anche offrire consigli su come procurarsi droga o costruire bombe. Per tenere sotto controllo i propri modelli, le aziende che li hanno sviluppati ricorrono allo stesso metodo utilizzato per rendere le loro risposte più coerenti e accurate, facendo valutare i risultati dell’AI agli esseri umani. Questi feedback vengono quindi usati per mettere a punto il modello in modo da ridurre le probabilità che si comporti male.
Robust Intelligence ha fornito a Wired US diversi esempi di metodi che eludono queste protezioni. Alcuni di questi tentativi, anche se non tutti, hanno funzionato su ChatGPT, che è stato per esempio indotto a generare messaggi di phishing e a fornire idee per aiutare un malintenzionato a nascondersi in una rete informatica governativa.
Brendan Dolan-Gavitt, professore della New York University che si occupa di sicurezza informatica e apprendimento automatico, afferma che la nuova tecnica rivelata da Robust Intelligence dimostra che i metodi basati sui feedback umani non sono infallibili per proteggere i modelli dagli attacchi. Secondo il docente, le aziende che costruiscono sistemi basati su modelli linguistici di grandi dimensioni come GPT-4 dovrebbero adottare ulteriori misure di sicurezza: “Dobbiamo assicurarci di progettare i sistemi che utilizzano gli Llm in modo che le violazioni non permettano a utenti malintenzionati di accedere a cose a cui non dovrebbero accedere“, commenta Dolan-Gavitt.
Questo articolo è apparso originariamente su Wired US.
Fonte : Wired