Gli editori canadesi contro OpenAI

Carla Federico — Fri, 06 Dec 2024 09:18:40 +0000

OpenAI è nuovamente coinvolta in una disputa legale.

Questa volta, a portarla in tribunale sono cinque società di media canadesi, tra cui Toronto Star, Metroland Media, Postmedia Network, Globe and Mail, Canadian Press e Canadian Broadcasting Corporation.

La causa è stata depositata presso la Corte Superiore di Giustizia dell’Ontario a Toronto, venerdì 28 novembre 2024.

Le società di media, tutte membri dell’associazione News Media Canada, accusano OpenAI di aver usufruito dei loro articoli giornalistici, pubblicati a partire dal 2015, per l’addestramento di ChatGPT, nonostante fossero protetti da copyright e richiedessero licenze per l’uso e di aver deciso consapevolmente di ignorare queste normative.

Questa pratica, secondo i querelanti ha permesso a OpenAI di sviluppare e potenziare le fonti informative di ChatGPT sfruttando il lavoro dei giornalisti senza alcun compenso economico. Di conseguenza ciò avrebbe messo a rischio il valore e la sostenibilità del giornalismo, settore che dipende dalla protezione dei suoi contenuti per garantire che i giornalisti possano continuare a produrre articoli di qualità e ricevere una giusta remunerazione per il loro lavoro.

La causa chiede un risarcimento di 20.000 dollari canadesi per ogni articolo utilizzato da OpenAI, una cifra che potrebbe portare a una causa miliardaria considerando il numero di articoli pubblicati dalle società coinvolte.

Gli istanti richiedono inoltre un’ingiunzione che impedisca a OpenAI di utilizzare in futuro altri articoli di notizie senza esplicita autorizzazione. Dunque, se il tribunale accogliesse le loro istanze, tale decisione potrebbe definire un precedente giuridico imprescindibile per l’utilizzo di contenuti protetti da copyright.

In questo contesto è rilevante l’intervento di Paul Deegan, presidente di News Media Canada, che ha affermato: “Queste aziende di intelligenza artificiale “cannibalizzano” i contenuti proprietari e sfruttano gratuitamente gli editori di notizie che investono soldi veri per impiegare veri giornalisti che producono storie vere per persone vere. Stanno sfruttando il giornalismo mentre si arricchiscono in modo sostanziale, ingiusto e illegale a scapito degli editori”.

OpenAI, da parte sua, si difende affermando che i suoi modelli di intelligenza artificiale sono addestrati su “dati pubblicamente disponibili”. La società si basa sul principio del “fair use”, una dottrina legale che consente l’utilizzo limitato di materiale protetto da copyright senza l’autorizzazione del titolare dei diritti, a determinate condizioni. OpenAI ha aggiunto che l’azienda “collabora strettamente con gli editori di notizie” e offre loro modi semplici per rinunciare all’utilizzo dei propri contenuti per l’addestramento dei modelli in qualsiasi momento se lo desiderano.

È importante notare che OpenAI ha già stretto accordi di licenza con diversi editori a livello internazionale per l’utilizzo dei loro contenuti, tra cui Associated Press, Axel Springer e il Financial Times. La causa canadese solleva quindi la questione se l’utilizzo di contenuti di siti web accessibili al pubblico, ma protetti da copyright, possa essere considerato “fair use” ai fini dell’addestramento di modelli di intelligenza artificiale.

La causa dei media canadesi si inserisce in un contesto più ampio di crescente preoccupazione per l’utilizzo dei dati da parte delle aziende tecnologiche.

Negli Stati Uniti, il New York Times ha intentato una causa simile contro OpenAI e Microsoft per lo stesso motivo. Allo stesso modo anche i siti web di notizie The Intercept, Raw Story e AlterNet, hanno citato in giudizio OpenAI.

I dati per addestrare le IA si stanno esaurendo

Antonio Rossano — Wed, 24 Jul 2024 07:05:00 +0000

L’ accesso ai dati è di cruciale importanza per lo sviluppo dei modelli di intelligenza artificiale.

I dati utilizzati per addestrare questi modelli provengono da diverse fonti, e la disponibilità di tali dati ha permesso significativi avanzamenti nel campo dell’IA. Tuttavia, come emerge da uno studio pubblicato dalla Data Provenance Initiative, un gruppo di ricerca del MIT, recenti cambiamenti nelle normative e l’aumento delle restrizioni stanno compromettendo questa accessibilità, creando quella che viene definita una crisi dei dati.

Lo studio, che è riportato anche dal The New York Times, in un lungo articolo di Kevin Roose dello scorso 19 luglio, ha esaminato 14.000 domini web inclusi in tre set di dati di addestramento dell’IA comunemente utilizzati, evidenziando una “crisi emergente del consenso”, in quanto gli editori e le piattaforme online hanno adottato misure per impedire l’acquisizione dei loro dati.

I ricercatori stimano che nei tre set di dati – chiamati C4, RefinedWeb e Dolma – il 5% di tutti i dati, e il 25% dei dati provenienti dalle fonti di qualità più elevata, sia stato sottoposto a restrizioni. Queste restrizioni sono state impostate attraverso il protocollo di esclusione dei robot, un metodo vecchio di decenni che consente ai proprietari di siti web di impedire ai bot automatici di effettuare il crawling delle loro pagine utilizzando un file chiamato robots.txt.

Lo studio ha anche rilevato che ben il 45% dei dati di un set, C4, è stato limitato dai termini di servizio dei siti web.

Tuttavia, è utile ricordare che, sebbene gli editori possano cercare di impedire alle società di I.A. di effettuare lo scraping dei loro dati inserendo delle restrizioni nei loro file robots.txt, queste richieste non sono legalmente vincolanti e la loro osservanza è volontaria.

I principali motori di ricerca onorano queste richieste di opt-out e diverse aziende leader nel settore dell’intelligenza artificiale, tra cui OpenAI e Anthropic, hanno dichiarato pubblicamente che lo fanno anche loro. Ma altre aziende, (ne abbiamo scritto in precedente articolo) tra cui il motore di ricerca alimentato dall’IA Perplexity, sono state accusate di ignorarle.

Queste limitazioni rappresentano un problema anche per le piccole imprese di IA e per i ricercatori accademici, che spesso dipendono dai set di dati pubblici e non hanno le risorse finanziarie per acquistare licenze direttamente dagli editori.

Secondo il Times, alcune aziende ritengono di poter superare la mancanza dei dati utilizzando dati sintetici, ovvero dati generati da sistemi di I.A., per addestrare i loro modelli. Ma molti ricercatori dubitano che gli attuali sistemi di IA siano in grado di generare dati sintetici di qualità sufficiente a sostituire i dati creati dall’uomo che stanno perdendo.

addestramento ia – Interskills – Media Company

Gli editori canadesi contro OpenAI

I dati per addestrare le IA si stanno esaurendo