La causa di John Grisham contro OpenAI per violazione del diritto d’autore e altre storie

L’avvocato e docente universitario Nina Brown, ha analizzato la causa contro OpenAI, intentata nel 2023 da autori come Grisham, Baldacci e Connelly. Essi accusano OpenAI di violare i loro diritti utilizzando opere protette attraverso il “scraping” per addestrare ChatGPT. Secondo i querelanti, il semplice atto di copiare le opere, anche temporaneamente, costituisce una violazione.

in

Tempo di lettura:

3 minuti


Interessante l’articolo su Medium di Nina Brown “The Copyright Battle between Authors and Generative AI Models”  sulle problematiche del diritto d’autore nell’addestramento dei Large Language Models dell’intelligenza artificiale con dati protetti dal diritto d’autore.

La Brown è avvocato e professore alla Syracuse University, ed il suo lavoro si concentra proprio sul difficile rapporto tra diritto dei media e tecnologia. L’articolo della Brown prende spunto da una causa avviata a novembre ’23, presso la corte del Distretto meridionale dello Stato di New York, da parte di un gruppo di autori, tra cui John Grisham, David Baldacci e Michael Connelly (non proprio degli sconosciuti) i quali sostengono che OpenAI abbia utilizzato le loro opere senza permesso, impiegando tecniche di “scraping” — l’estrazione automatizzata di dati dal web — per addestrare i modelli di intelligenza artificiale.

Il cuore della questione è la pratica di OpenAI di raccogliere enormi quantità di contenuti protetti da copyright per insegnare a ChatGPT a generare risposte sofisticate. Gli autori sostengono che il semplice atto di copiare integralmente le loro opere, anche solo per un istante, violi i loro diritti.

OpenAI, invece, si difende affermando che il modello non immagazzina direttamente le opere stesse, ma utilizza solo informazioni strutturali — come sintassi e probabilità delle sequenze di parole — per rispondere ai prompt. Questa linea difensiva fa riferimento alla cosiddetta “dicotomia idea/espressione” nel diritto d’autore, secondo cui solo l’espressione di un’idea è protetta, non l’idea stessa.

Un argomento centrale della difesa di OpenAI è il concetto di fair use. Questa dottrina giuridica permette l’utilizzo limitato di materiali protetti in contesti specifici, quali la ricerca e la creazione di nuovi lavori, senza dover ottenere un’autorizzazione. OpenAI sostiene che il proprio uso sia altamente trasformativo, poiché l’intento è di insegnare al modello IA a rispondere in modo versatile, non di riprodurre le opere originali. La difesa sostiene che ChatGPT crei qualcosa di nuovo, partendo da una vasta serie di dati, e che questo debba essere considerato un’eccezione prevista dalla legge sul diritto d’autore.

Ricordiamo cause simili, come quella che ha coinvolto il New York Times contro OpenAI e Microsoft. Il giornale infatti, lo scorso dicembre, ha citato in giudizio le due società per violazione del copyright, accusandole di aver utilizzato milioni dei suoi articoli nell’addestramento di modelli di intelligenza artificiale, mettendo a rischio il rapporto con i lettori e minacciando la qualità del giornalismo.

Secondo quanto affermato dal New York Times, questa pratica potrebbe provocare una significativa perdita di entrate per il giornale, provenienti da abbonamenti, licenze, pubblicità e affiliazioni. Il quotidiano sostiene che “le due aziende cercano di approfittare gratuitamente del massiccio investimento del Times nel suo giornalismo”.

Nella denuncia del NYT si sostiene che i modelli linguistici di OpenAI, utilizzati per alimentare ChatGPT e Copilot, sono in grado di generare output che replicano il contenuto del giornale, minando così il legame tra il quotidiano e i suoi lettori.

Nel contesto della denuncia, il New York Times afferma: “Se il Times e altre organizzazioni di notizie non possono produrre e proteggere il loro giornalismo indipendente, ci sarà un vuoto che nessun computer o intelligenza artificiale può colmare”.

Questi casi evidenziano come l’industria dei media stia iniziando a confrontarsi con le aziende di IA, le quali sostengono che il fair use e l’uso trasformativo siano sufficienti a giustificare il loro approccio. Tuttavia, nella causa analizzata dalla Brown, i querelanti ribattono che il solo fatto di poter accedere ai contenuti senza permesso per processarli rappresenti una violazione dei diritti d’autore.

In particolare, Brown esplora come la corte potrebbe affrontare la questione dello scraping. Mentre è stato consentito l’uso intermedio di programmi informatici per accedere a dati non protetti (come nel caso di Google Books), in cui sono stati permessi riassunti e snippet di libri, l’accesso a opere letterarie per l’addestramento di modelli IA rappresenta una questione diversa. I critici sostengono che OpenAI non dovrebbe poter fare copie intere delle opere solo per estrarne elementi come la struttura sintattica o la sequenza delle parole, soprattutto senza alcuna forma di licenza.

Un altro aspetto fondamentale analizzato è la possibile risposta del Copyright Office statunitense, che sta studiando l’impatto delle tecnologie IA sul diritto d’autore. Tra le soluzioni proposte, vi è la creazione di un sistema di licenze che autorizzi l’uso di opere non di pubblico dominio per l’addestramento di modelli IA. Questo sistema potrebbe essere una via per conciliare il diritto d’autore con le esigenze innovative delle aziende di intelligenza artificiale, garantendo ai creatori un controllo maggiore sulle loro opere.

Alcune immagini,traduzioni e sintesi possono essere stati realizzati con ausilio di strumenti di intelligenza artificiale.

Storytelling e supervisione umani