Dopo i rumor dell’agosto scorso, quando era emersa la notizia che il New York Times aveva bloccato il web crawler di OpenAI, impedendo alla piattaforma di utilizzare il contenuto della pubblicazione per addestrare i suoi modelli di intelligenza artificiale era nell’aria la notizia di una causa promossa dall’editore USA che prontamente è stata annunciata subito dopo Natale.
Per gli avvocati del NYT, OpenAI e Microsoft hanno utilizzato le opera del NYT per creare prodotti di intelligenza artificiale che competono con esso minacciando la capacità dell’editore di fornire un servizio di news. Gli strumenti di intelligenza artificiale generativa (“GenAI”) degli accusati si basano su modelli di linguaggio di grandi dimensioni (“LLM”) che sono stati costruiti copiando e utilizzando milioni di articoli di notizie, indagini approfondite, articoli di opinione, recensioni, istruzioni protette da copyright del NYT e altro ancora. Sebbene le piattaforme siano state addestrate su copie in larga scala da molte fonti, hanno dato particolare enfasi ai contenuti del NYT durante la creazione dei loro LLM, rivelando una preferenza proprio per i contenuti dell’editore. Attraverso Bing Chat di Microsoft (recentemente rinominato “Copilot”) e ChatGPT di OpenAI, cita il ricorso, essi cercano di approfittare del massiccio investimento del NYT nel proprio lavoro giornalistico utilizzandolo per costruire prodotti sostitutivi.
L’editore americano ha anche aggiunto di aver intrapreso la via negoziale per poter individuare una soluzione contrattuale con le piattaforme per l’utilizzo dei propri contenuti con una licenza e una remunerazione ma di aver ricevuto come risposta che l’addestramento dei sistemi tipo ChatGPT sarebbero avvenuti nell’ambito dell’eccezione del “fair use” (ovvero una libera utilizzazione prevista dalla normativa americana, ad esempio per l’education), cosa che invece il NYT contesta trattandosi di un utilizzo prettamente commerciale dei propri contenuti.
Negli atti di causa che è stato possibile visionare, il NYT mostra interi paragrafi di centinaia di articoli che vengono riproposti integralmente a fronte di un prompt dell’utente di Bing per ChatGPT.
Non si tratta pertanto soltanto dell’utilizzo di materiale creato dal NYT per l’addestramento ma di copie integrali di articoli che sarebbero alla base della struttura stessa degli LLM delle piattaforme. Su questo punto insistono gli avvocati dell’editore evidenziando come ci si trovi di fronte ad una violazione massiva e consapevole da parte di OpenAI e Microsoft data la presenza di articoli ripresi verbatim dal sito del giornale senza alcuna autorizzazione o verifica preventiva.
La condotta incriminata non solo si limita all’aver riprodotto milioni di copie di contenuti del NYT senza autorizzazione per l’addestramento, ma si estende alla distribuzione e messa a disposizione di un contenuto che originariamente era accessibile dietro un paywall, entrando in diretta competizione con lo stesso NYT sul mercato delle news.
La notizia dell’azione legale negli USA arriva a pochi giorni dal trilogo a Bruxelles, dove Parlamento, Consiglio EU e Commissione hanno trovato una difficile quadra sul testo del primo regolamento al mondo che cerca di gestire l’intelligenza artificiale generativa. Tra i punti più controversi sui quali è stato trovato un compromesso dopo molte ore di negoziato, proprio quello relativo alla trasparenza e all’obbligo dei registri per i GPAI delle piattaforme, ovvero l’obbligo di comunicare agli aventi diritto quali opere sono state utilizzate per l’addestramento dando ai titolari del copyright la possibilità di fare opt-out ai sensi della direttiva sul diritto d’autore o chiedere di negoziare una licenza per i diritti esclusivi. Non è un caso che questo tema sia stato oggetto di una pesante lobby delle piattaforme per evitare questi obblighi confermando la consapevolezza di aver già utilizzato ampiamente tutti i contenuti per addestrare i sistemi.
La causa promossa dal NYT così come altre, tra le quali anche Universal Music contro Anthropic, una start-up dietro la quale vi sono investimenti di Google e Amazon, citata per aver riprodotto illegalmente migliaia di testi di canzoni protette dal diritto d’autore, dovranno stabilire un precedente fondamentale per il futuro dell’industria dei contenuti. Una grande opportunità per crescere e prosperare di fronte all’incognita del più grande furto di opere protette dal copyright della storia dell’umanità.
*Ceo FIMI, Federazione Industria Musicale Italiana
Fonte : Repubblica