Rubare i dati da ChatGPT, usando ChatGPT: così l’IA rivela nomi, cognomi, volti e indirizzi delle persone

Quanto sono al sicuro i dati affidati alle intelligenze artificiali e in particolare a ChatGPT? Quanto sono al riparo da occhi indiscreti, i miliardi di informazioni su cui la più nota fra le IA è stata allenata? Non molto, a giudicare da una ricerca pubblicata a fine novembre (questa) e dedicata proprio a capire se e come sia possibile Extracting Training Data from ChatGPT. Cioè, appunto: estrarre da ChatGPT i dati con cui è stata allenata.

A questo lavoro di hacking etico hanno partecipato, fra gli altri, ricercatori di DeepMind (la divisione di Google che si occupa di intelligenza artificiale) come Nicholas Carlini e Katherine Lee, ma anche dell’Università di Washington, della Cornell, di Berkeley e del Politecnico di Zurigo.

Le informazioni (non molto) nascoste in ChatGPT

Secondo quanto spiegato, gli autori della ricerca sono riusciti a “estrarre parecchi megabyte di dati di addestramento” dalla versione a pagamento di ChatGPT spendendo circa 200 dollari, ma “riteniamo che sarebbe possibile estrarre circa un GB di dati spendendo più soldi” per rivolgere domande alla IA di OpenAI.

Per capire la gravità del problema, la prima cosa da capire è questa: i ricercatori sono entrati in possesso delle informazioni non usando chissà quale trucco, hacking, software o dispositivo, ma semplicemente chiacchierando con ChatGPT, come può fare praticamente chiunque.

La seconda cosa importante da sottolineare è di che tipo di informazioni si tratti: com’è noto (lo spiegammo qui) i Large Language Model sui cui le IA sono allenate sono composti da miliardi di dati che vengono recuperati facendo scraping su Internet. Semplificando: vengono lette migliaia, migliaia e migliaia di pagine online (Wikipedia, i siti dei giornali, le bacheche dei social network, i paper scientifici, gli archivi delle biblioteche e così via), queste pagine vengono memorizzate e sulla base della conoscenza appresa da queste pagine, le IA imparano a dare le risposte sorprendenti che sono in grado di dare. Si tratta di dati prevalentemente pubblici (o quasi), accessibili online anche se non sempre facilmente dalle persone comuni.

In questo enorme mare di dati ci sono anche tantissime informazioni private o comunque sensibili, come foto, facce (perché per imparare a disegnare volti, le IA generative devono guardare volti), indirizzi, indirizzi mail, numeri di telefono, nomi e cognomi delle persone, libri, tracce di interazioni sulle app di dating e molto altro. E questi sono esattamente i dati che i ricercatori sono riusciti a farsi dire da ChatGPT. Anzi, che sono riusciti a “far rigurgitare” a ChatGPT, come scrivono loro stessi.

Un esempio del prompt usato per violare ChatGPT
Quello che succede qualche riga dopo la ripetizione continua di una singola parola

Il metodo di ricerca e la gravità del risultato

Come detto, non è stato complicato arrivare a questo risultato. Anzi, è stato usato un modo “abbastanza stupido”, come hanno spiegato gli stessi autori della ricerca: come prompt è stato chiesto a ChatGPT di ripetere una parola forever, cioè all’infinito e per sempre, e dopo un certo numero di righe l’IA ha iniziato a scrivere (a “rigurgitare”, appunto) i dati di addestramento.

Qui c’è un esempio che permette di vedere chiaramente quello che succede, in cui ChatGPT rivela un indirizzo di posta elettronica e un numero di telefono di una persona totalmente ignara, ma c’è dell’altro: in oltre il 5% dei test, quello che l’IA di OpenAI ha risposto sono stati blocchi da 50 righe presi direttamente dai suoi dataset di addestramento.

Per fare un esempio forse altrettanto stupido ma utile, è come se uno studente andasse a scuola con alcuni bigliettini nascosti addosso in vista del compito in classe di storia, facesse il compito, rispondesse correttamente e sorprendentemente bene alle domande, prendesse un ottimo voto e poi all’improvviso, di punto in bianco, iniziasse ad aprire i bigliettini davanti all’insegnante e a leggerglieli a voce alta. Con in più l’aggravante che nei bigliettini usati da ChatGPT ci sono nomi e cognomi delle persone, le loro facce, le loro foto, numeri di telefono, indirizzi, indirizzi mail e chissà che altro.

Come si capisce, quello che è stato scoperto è grave due volte. Innanzi tutto, perché espone pubblicamente a chiunque informazioni sensibili che dovrebbero restare private e che, come su Italian Tech abbiamo spiegato spesso, potrebbero essere usate da cybercriminali per costruire storie credibili con cui organizzare truffe e raggiri. Poi, perché fa venire ulteriori e seri dubbi sull’affidabilità delle risposte di ChatGPT e in generale delle IA generative. Come se non ce ne fossero già abbastanza.

L’esperta: “Grave soprattutto per le aziende”

Leggendo i documenti pubblicati dai colleghi, la professoressa Annalisa Barla, fra le poche donne in Italia a occuparsi di intelligenza artificiale, professore associato di Informatica del Dibris e affiliata al Machine Learning Genoa Center dell’Università di Genova, ci ha confessato di essere rimasta “stupita dalla semplicità del metodo usato per violare ChatGPT”. E anche un po’ preoccupata, perché “si capisce che questa cosa funziona su praticamente tutti gli LLM, sia quelli aperti sia quelli chiusi, sia quelli piccoli sia quelli enormi come quello su cui si basa l’IA di OpenAI”. Anzi: “Più è grande un modello, più è facile che comunichi all’esterno informazioni non dovrebbe dare”.

Perché è grave questa cosa? “Oltre agli evidenti problemi di privacy delle persone coinvolte, penso che lo sia soprattutto per il mondo corporate, per chi magari si fa sviluppare un GPT verticale a uso interno, una chatbot cui i dipendenti possono fare domande o attraverso cui possono consultare documenti aziendali”. Ma se l’uso è interno, che problema c’è? “C’è perché viene a mancare la sicurezza che queste informazioni non siano accessibili da altri, che i dati di addestramento non siano condivisi con altri modelli” e dunque non finiscano dentro ad altre IA. Che poi potrebbero andarli a raccontare a chiunque.

E visto che “nel paper c’è l’elenco preciso delle informazioni che i ricercatori sono riusciti a ricavare da ChatGPT, fra dati sensibili, materiale vietato ai minori, coperto da copyright e altro, se fossi un’azienda non so se mi fiderei molto”. Questo problema, quello del rischio che le IA raccontino in giro e a chiunque dove hanno imparato le cose che hanno imparato, aggiunge un ulteriore problema per l’uso nel mondo del lavoro: “Immaginando l’esempio della chatbot aziendale di cui si diceva prima, come posso essere sicura che i dati siano accessibili solo alle persone giuste, che uno stagista non possa avere informazioni che sarebbero riservate solo a manager di più alto livello?”.

Gli errori di OpenAI: come fare perché non succeda più

Poi c’è un altro motivo di preoccupazione, che forse è più tecnico e da addetti ai lavori ma non per questo meno interessante e riguarda nello specifico la creatura di OpenAI che (almeno in teoria) sarebbe programmata proprio per non rivelare i dati su cui è stata addestrata. Sarebbe stata aligned, allineata per non fare quello che invece ha fatto: “È una cosa che si fa normalmente nello sviluppo di queste IA, con un intervento umano che eventualmente filtra il tono della risposta o il tipo di risposta, magari per evitare argomenti delicati”, ci ha spiegato ancora Barla. Semplificando, è il motivo per cui ChatGPT non spiega come preparare droghe a casa: non perché non lo sappia, ma perché chi l’ha programmata le ha impedito di farlo.

Evidentemente, la procedura di alignment di ChatGPT sul non rivelare i dati su cui è stata allenata non ha funzionato, come hanno fatto notare anche gli stessi autori della ricerca: “Fare i test solo sulle IA rilasciate al pubblico (cioè sul prodotto finito, ndr) non è una buona idea, perché nasconde eventuali vulnerabilità dei modelli su cui sono state addestrate”. Soprattutto, “le aziende che rilasciano questi LLM dovrebbero affidarsi a test interni, test degli utenti e test da parte di terzi” per scoprire queste falle: “È assurdo che il nostro attacco abbia funzionato, perché questa vulnerabilità si sarebbe potuta e dovuta trovare prima”.

In conclusione del loro lavoro, i ricercatori spiegano come hanno fatto a verificare che le informazioni ricevute da ChatGPT siano davvero quelle su cui ChatGPT è stata addestrata, lasciando velatamente intendere che la scelta di OpenAI di essere completamente chiusa all’esterno (a dispetto del suo nome) non sia una scelta saggia in questo campo (un aspetto fatto notare anche da altri ricercatori lo scorso marzo) e anche rivelano l’esistenza di una certa forma di dialogo con l’azienda di Altman. Dopo avere capito che cosa stavano per scoprire, “lo scorso 30 agosto abbiamo velocemente condiviso una bozza del nostro paper con OpenAI”: non è chiaro se e quale risposta abbiano ricevuto, ma “dopo il periodo di attesa standard di 90 giorni, abbiamo reso tutto pubblico il 28 novembre”. E la stessa cosa è stata fatta con gli sviluppatori di GPT-Neo, Falcon, RedPajama, Mistral e LLaMA, che hanno lo stesso problema della più nota fra le IA generative.

@capoema

Fonte : Repubblica