Lo scorso luglio la comica Sarah Silverman e alti autori: Christopher Golden, Richard Kadrey, Paul Tremblay e Mona Awad avevano accusato OpenAI di aver utilizzato illecitamente i loro lavori per addestrare ChatGPT, violando il loro diritto di copyright.

Le prove offerte dagli autori miravano a dimostrare che, quando richiesto, ChatGPT remixava le opere protette da copyright di migliaia di autori di libri senza consenso, compenso o credito.

Il 19 febbraio 2024, la giudice federale californiana Araceli Martínez-Olguín ha respinto le accuse degli autori ritenendo che non sia stata riscontrata una somiglianza diretta tra gli output di ChatGPT e le opere originali.

Martínez-Olguín ha sottolineato che i querelanti “non hanno dimostrato che gli output di ChatGPT contengano copie dirette dei libri protetti da copyright” e invece per accettare una tale accusa le opere “devono mostrare una sostanziale somiglianza tra gli output e i materiali protetti da copyright”.

Nonostante la vittoria, OpenAI è ancora sotto accusa, in base alla decisione della giudice, infatti, gli autori possono continuare a perseguire eventuali reclami per violazione del diritto d’autore, fino al 13 marzo.

Gli autori, precedentemente citati, avevano intentato la stessa causa anche contro Meta, in questo caso le accuse era argomentate dal fatto che i libri degli autori fossero accessibili nei set di dati che Meta utilizzava per addestrare i suoi modelli LLaMA. Nella denuncia i querelanti esponevano i motivi per cui ritenevano che i set di dati utilizzati da Meta avessero origini illecite, oltre la richiesta del diritto di copyright.

Effettivamente le analisi hanno confermato che i loro scritti fanno parte del set di dati Books3, un insieme di testi che comprende circa 195.000 libri.

Creato dall’ingegnere AI Shawn Presser nel 2020, Books3 è una raccolta di ebook piratati, per circa un terzo di narrativa e per due terzi di saggistica. Il set di dati fa parte di un progetto più ampio chiamato “The Pile”, volto a fornire dati open-source per i modelli di linguaggio.

Nonostante ciò a Novembre scorso l’accusa era stata respinta: il giudice distrettuale degli Stati Uniti Chhabria aveva negato la teoria degli autori secondo cui il sistema di intelligenza artificiale di Meta è esso stesso un lavoro derivato illecito reso possibile solo da informazioni estratte da materiale protetto da copyright. “Questo è insensato”, aveva scritto nell’ordinanza il giudice “Non c’è modo di interpretare i modelli LLaMA stessi come una rifusione o un adattamento di uno qualsiasi dei libri dei querelanti.”

Per quanto riguarda l’accusa di violazione del copyright invece, è stata anch’essa respinta in quanto il giudice ha ritenuto non ci fossero prove sufficienti e nell’ordinanza ha specificato: “Per prevalere su una teoria secondo cui i risultati di LLaMA costituiscono una violazione derivata, i querelanti dovrebbero infatti affermare e infine dimostrare che i risultati ‘incorporano in qualche forma una parte dei libri del querelante”.

La controversia in questione non è un caso isolato, ma rappresenta un esempio di una serie di dispute legali simili che coinvolgono le grandi aziende tecnologiche, in merito all’utilizzo di opere coperte da copyright per addestrare sistemi di intelligenza artificiale.

Emblematica è l’azione legale del The New York Times contro OpenAI.

Il Giornale ha accusato l’azienda di AI di aver utilizzato milioni dei suoi articoli nell’addestramento di modelli di intelligenza artificiale senza nessuna autorizzazione, mettendo a rischio il rapporto con i lettori e minacciando la qualità del giornalismo. Le analisi e il procedimento giudiziario sono ancora in corso.