Ancora una notizia che va a minare l’integrità dell’intelligenza artificiale generativa. Un recente studio dello Stanford Internet Observatory ha rivelato che il set di dati di apprendimento automatico (LAION-5B) utilizzato da Stable Diffusion, e da altri strumenti AI per la creazione di immagini, contiene ben 1008 casi di materiale pedopornografico. Una rivelazione preoccupante, considerando che gli stessi ricercatori statunitensi temono che un’AI addestrata in questo modo possa finire con il generare immagini legate agli abusi sui minori. Di tutta risposta, LAION – l’organizzazione no-profit che crea strumenti open source per l’apprendimento automatico, di cui LAION-5B è il più noto – ha subito dichiarato che “ha una politica di tolleranza zero per i contenuti illegali”, ammettendo che sta rimuovendo il set di dati incriminati “per garantire che siano sicuri prima di ripubblicarli”.
Un gesto che non sembra comunque tranquillizzare gli esperti del settore, considerando che il portale 404 Media ha riferito che, almeno dal 2021, i leader dell’organizzazione erano consapevoli della possibilità che i loro set di dati di apprendimento includessero materiale pedopornografico. Eppure, nonostante questo, gli ingegneri di LAION non sembrerebbero essere riusciti a trovare una soluzione utile per evitarlo. Non a caso, già alcuni rapporti risalenti all’inizio del 2023 dimostravano che il set di dati di LAION-5B, che comprende oltre 5 miliardi di immagini e relative didascalie descrittive, contenesse “milioni di immagini di pornografia, violenza, nudità infantile, meme razzisti, simboli di odio, opere d’arte protette da copyright e opere prelevate da siti Web di società private”.
A rendere la situazione ancora più allarmante c’è anche il fatto che i set di dati di LAION non sono stati utilizzati soltanto per l’addestramento di Stable Diffusion, ma anche per quello di altri modelli simili, come Imagen di Google. “In particolare, durante un controllo del LAION‐400M, gli sviluppatori di Imagen hanno trovato ‘un’ampia gamma di contenuti inappropriati tra cui immagini pornografiche, insulti razzisti e stereotipi sociali dannosi’ e li hanno ritenuti inadatti all’uso pubblico”. Così si legge nel documento pubblicato dai ricercatori di Stanford, anche se sembrerebbe che Google abbia dichiarato che il set LAION-400M sia stato utilizzato per addestrare soltanto la prima versione del suo modello, che non è mai stata rilasciato al pubblico.
Al di là di questo, è innegabile che tutta questa storia metta in allerta gli esperti del settore sulla questione della sicurezza dell’AI generativa. Come riporta 404 Media, è evidente che l’organizzazione abbia compilato il set di dati utilizzando strumenti che raschiano il web, finendo così con il raccogliere anche una quantità non indifferente di materiale pedopornografico. “Poiché è internet, ci saranno set di dati che conterranno pornografia infantile. Twitter li ha. Facebook li ha. È tutto lì. Non fanno un buon lavoro di pulizia, anche se affermano di farlo. E tutto questo ora verrà utilizzato per addestrare questi modelli”, ha dichiarato Marcus Rogers, assistente per le iniziative di sicurezza informatica presso la Purdue University. Diventa quindi impossibile per le società che preparano i set di dati per l’addestramento di modelli AI riuscire a limitare la presenza di materiali di abuso su minori, a meno che non decidano di dedicare molto tempo a questa azione. Una decisione che, prima o poi, dovranno prendere.
Fonte : Wired