Nel corso del 2023 numerosi editori giornalistici in tutto il mondo hanno deciso di impedire l’accesso ai propri contenuti ad OpenAI, l’operatore noto per aver sviluppato il servizio di intelligenza artificiale ChatGPT. Il lavoro prende spunto da questa vicenda per affrontare la questione se ed in quali circostanze le forme di sfruttamento delle opere poste in essere dall’IA generativa ricadano nell’ambito del diritto di riproduzione e dei diritti sulle banche dati. Il problema è esaminato con riferimento all’IA generativa di testo.
Several journalistic publishers around the world have recently decided to prevent access to their content by OpenAI, the operator known for developing the ChatGPT artificial intelligence service. The paper takes this case as a starting point to address the question whether and under what circumstances the forms of exploitation of works brought about by generative AI fall within the scope of reproduction rights and database rights. The issue is examined with reference to artificial intelligence generating text.
1. Introduzione. - 2. L’IA generativa di testo. - 3. Estrazione di testo e di dati. - 4. Altre eccezioni e limiti al diritto d’autore. - 5. Riproduzioni temporanee. - 6. I confini del diritto di riproduzione. - 7. Intelligenza artificiale e banche dati. - 8. Conclusioni. - NOTE
Nel corso del 2023 numerosi editori giornalistici in tutto il mondo hanno deciso di impedire l’accesso ai propri contenuti ad OpenAI, l’operatore noto per aver sviluppato il servizio di intelligenza artificiale ChatGPT. “Crawler” automatici “rastrellano” infatti da tempo i siti giornalistici per raccogliere dati con cui addestrare sistemi di intelligenza artificiale. Diversi sono gli argomenti adoperati dagli editori per giustificare questa scelta. ChatGPT – si dice – manipola le informazioni e finisce per offrire agli utenti notizie false o imprecise. Il sistema si appropria, poi, dei contenuti prodotti da altri, senza includere citazioni o rinvii alle fonti. La principale preoccupazione dell’industria giornalistica sembra però un’altra. ChatGPT potrebbe diventare un diretto concorrente delle testate. Anziché leggere i giornali cartacei o digitali, gli utenti potrebbero interrogare il “chatbot” sulle notizie di interesse, ottenendo una sintesi delle informazioni contenute nei vari siti. Ciò azzererebbe il traffico sulle pagine dei giornali, privando gli editori degli introiti derivanti dalla pubblicità e dalla raccolta dei dati. Lo strumento giuridico invocato dagli editori per bloccare OpenAI è il diritto d’autore. Gli articoli pubblicati sul sito – si dice – sono coperti da diritti esclusivi. Gli editori hanno dunque il diritto di impedirne l’uso ai sistemi di intelligenza artificiale [1]. Questa impostazione ha sollevato forti discussioni, anche al di fuori del campo dell’editoria giornalistica. L’esigenza di ottenere il consenso per l’uso di ogni contenuto adoperato nell’addestramento dell’IA rischia di rendere sostanzialmente impossibile lo sviluppo di prodotti come ChatGPT. Sistemi in grado di elaborare immense quantità di dati e di offrire un quadro di sintesi su temi complessi devono, però, essere visti come risultati positivi dell’innovazione tecnologica. L’IA ha, del resto, già dimostrato le sue enormi potenzialità in alcuni campi, come la ricerca scientifica, l’analisi statistica e la programmazione elettronica. Lo scontro tra editori e OpenAI ha acceso anche un dibattito in dottrina intorno alla questione se il diritto d’autore attribuisca effettivamente ai titolari dei diritti il potere di opporsi all’utilizzo delle [...]
Nel concetto di IA generativa rientrano tutti i sistemi di IA che, a seguito di un addestramento realizzato su vaste quantità di dati, acquistano la capacità di produrre contenuti, come testi, immagini, sequenze di programmazione, brani musicali, ecc. ChatGPT si fonda su un c.d. “large language model” (LLM), cioè un sistema caratterizzato dalla capacità di generare linguaggio e di rispondere così agli input degli utenti. Il processo che porta un’IA come ChatGPT a comunicare comincia con la raccolta di documenti dal web. Meccanismi automatici di ricerca (bot o web-crawler) passano in rassegna la rete, copiano testi presenti sulle pagine aperte al pubblico (articoli giornalistici, voci enciclopediche, raccolte di dati, libri, blog, ecc.) e archiviano le copie generate in banche dati (c.d. dataset). I documenti contenuti nel dataset vengono poi sottoposti agli algoritmi dell’IA. In questa fase, i testi vengono utilizzati per effettuare esercizi di vario genere, come il riempimento di brani incompleti, la sistemazione di frasi disordinate o la continuazione di frasi tronche. Questi esercizi sono risolti dagli algoritmi per tentativi e, ad ogni passaggio, il sistema aggiorna i propri dati precedenti. In questo senso, l’IA “apprende” strada facendo la struttura ricorrente delle frasi e i principi fondamentali del linguaggio, cioè le regole grammaticali e sintattiche. L’IA registra poi anche il modo in cui vengono combinate le parole [4]. Con questo procedimento, realizzato su una immensa quantità di testi, l’IA costruisce una mappa statistica pressoché completa delle possibili relazioni tra le parole che compongono una lingua. Essa è così in grado di orientarsi nel linguaggio e di generare testi originali, diversi da quelli utilizzati per l’addestramento [5]. In particolare, quando riceve una domanda dall’utente (c.d. input o prompt), l’IA individua le parole chiave della domanda e costruisce la risposta con le parole che, sulla base dei modelli appresi, risultano statisticamente più adatte a proseguire il discorso iniziato dall’utente. L’IA parte, cioè, dall’input e prevede le parole successive più probabili. Poi ripete parola per parola questo processo, fino ad arrivare alla costruzione di un testo completo. Fin qui, la generazione di testo sembra consistere [...]
Il procedimento fin qui sinteticamente descritto intercetta il diritto d’autore in varie fasi. Nella maggior parte dei casi, i testi presenti su Internet sono contenuti coperti dal diritto d’autore in qualità di «opere letterarie» (art. 2 l. aut.) [9]. Questo è senz’altro il caso degli articoli giornalistici raccolti dai siti web dei quotidiani. Gli articoli sono, peraltro, anche oggetto del diritto connesso degli editori sull’utilizzo online delle pubblicazioni giornalistiche, recentemente introdotto con l’art. 15 dir. 2019/790 (recepito in Italia nell’art. 43-bis l. aut.). Per addestrare un’IA, in genere, i testi vengono scaricati da Internet, vengono tradotti in un formato adatto agli strumenti di lettura automatizzata e riversati in un dataset [10]. I file contenuti nel dataset possono poi eventualmente essere anche riprodotti, in tutto o in parte, per facilitare lo svolgimento degli esercizi di addestramento da parte dell’IA. Tutti questi passaggi comportano la creazione di copie dell’opera, e la creazione di copia è oggetto sia del diritto di riproduzione degli autori (art. 13 l. aut.) che del diritto connesso degli editori di giornale (art. 43-bis l. aut.) [11]. A prima vista, la raccolta dei testi è dunque un atto di sfruttamento soggetto all’esclusiva dei titolari dei diritti [12]. Nel dibattito pubblico sul tema si obietta che i testi vengono copiati da siti aperti al pubblico o, comunque, sono acquisiti tramite abbonamenti di lettura. In queste circostanze, gli autori non potrebbero pretendere di bloccare la successiva riproduzione dei testi da parte dei crawler. In realtà però, come è noto, il caricamento di un’opera su un sito web non produce l’esaurimento del diritto di riproduzione. Questo resta quindi esercitabile nei confronti delle forme di riutilizzo digitale dell’opera. V’è anche chi sostiene che il titolare che accetta di caricare un articolo su un sito è consapevole che il suo testo potrà essere usato per attività di estrazione e accetta questa eventualità. In questo senso, si potrebbe dire che, con il caricamento, egli sta autorizzando implicitamente la copia della propria opera per fini di analisi. In realtà, però, gran parte dei titolari dei diritti è del tutto inconsapevole delle forme di utilizzazione [...]
Secondo alcune opinioni, le eccezioni sull’estrazione di testo e di dati sono le regole con cui l’ordinamento europeo ha inteso disciplinare il rapporto tra IA e diritto d’autore. L’uso delle opere da parte dell’IA sarebbe dunque consentito soltanto nel rispetto delle condizioni previste da queste eccezioni. A prima vista, questa lettura è confermata dal considerando 105 del testo definitivo dell’AI Act, dove si legge che «qualsiasi utilizzo di contenuti protetti da diritto d’autore richiede l’autorizzazione del titolare dei diritti interessato, salvo se si applicano eccezioni e limitazioni pertinenti al diritto d’autore. La direttiva (UE) 2019/790 ha introdotto eccezioni e limitazioni che consentono, a determinate condizioni, riproduzioni ed estrazioni effettuate da opere o altri materiali ai fini dell’estrazione di testo e di dati. In base a tali norme, i titolari dei diritti hanno la facoltà di scegliere che l’utilizzo delle loro opere e di altri materiali sia da essi riservato per evitare l’estrazione di testo e di dati, salvo a fini di ricerca scientifica. Qualora il diritto di sottrarsi sia stato espressamente riservato in modo appropriato, i fornitori di modelli di IA per finalità generali devono ottenere un’autorizzazione dai titolari dei diritti, qualora intendano compiere l’estrazione di testo e di dati su tali opere». Il considerando pare, quindi, dare per scontato che l’IA possa fare uso di contenuti protetti soltanto alle condizioni previste dalle eccezioni di estrazione di cui alla direttiva 2019/790. Dal canto suo, però, la stessa direttiva 2019/790 prevede che «vi possono essere anche casi di estrazione di testo e di dati che non comportano atti di riproduzione o in cui le riproduzioni effettuate rientrano nell’eccezione obbligatoria per gli atti di riproduzione temporanea di cui all’articolo 5, paragrafo 1, della direttiva 2001/29/CE, che dovrebbe continuare ad applicarsi alle tecniche di estrazione di testo e di dati che non comportino la realizzazione di copie al di là dell’ambito di applicazione dell’eccezione stessa» (considerando 9). In altre parole, secondo la direttiva 2019/790, le eccezioni di estrazione non sono le uniche vie percorribili per rendere compatibili i sistemi di analisi computazionale con il diritto d’autore. L’uso delle opere [...]
Alle copie create per l’IA resta dunque potenzialmente applicabile l’eccezione di cui all’art. 5, par. 1, dir. 2001/29 (recepito in Italia con art. 68-bis l. aut.) in tema di riproduzioni temporanee. L’eccezione si applica se sono soddisfatte alcune condizioni cumulative. In particolare, le copie devono essere: a) temporanee; b) eseguite all’unico scopo di consentire la trasmissione in rete tra terzi con l’intervento di un intermediario oppure un utilizzo legittimo di un’opera; c) parte integrante ed essenziale di un procedimento tecnologico; d) transitorie o accessorie al procedimento; e) prive di rilievo economico proprio [24]. 5.1. Temporaneità. Il carattere “temporaneo” richiesto dalla condizione a) viene inteso in giurisprudenza nel senso che gli atti di riproduzione devono essere destinati alla cancellazione dopo un certo periodo di tempo [25]. Nel caso dell’IA, il requisito è in genere soddisfatto dai primi atti di download dei testi dal web. Queste copie servono infatti soltanto come base per creare delle ulteriori copie da inserire nel dataset in un formato leggibile dagli algoritmi. Una volta realizzate queste seconde copie, le prime divengono obsolete e possono essere eliminate. Lo stesso vale per le eventuali copie prodotte durante gli esercizi di addestramento. Queste sono infatti quasi sempre riproduzioni effimere, volte a facilitare l’esercizio dell’IA e sono automaticamente eliminate alla conclusione dell’esercizio stesso o, comunque, alla chiusura dell’addestramento [26]. Più complessa è invece la situazione delle copie che compongono il dataset. Qui può, innanzitutto, accadere che il dataset venga interamente eliminato alla fine della procedura di addestramento dell’IA. Il requisito della “temporaneità” sarebbe, in tal caso, senz’altro rispettato [27]. Potrebbe, però, anche accadere che il dataset sia conservato per un tempo più lungo, ad es., per consentire controlli o aggiornamenti periodici del sistema. La questione se copie come queste siano “temporanee” non è risolta espressamente dalla direttiva. La ratio del requisito di temporaneità è però quella di consentire le riproduzioni indispensabili allo sviluppo di un procedimento tecnologico ed evitare di “liberalizzare” copie che invece vanno oltre [...]
L’idea che il sistema delle eccezioni al diritto di riproduzione non offra soluzioni soddisfacenti per l’IA è condivisa da gran parte della dottrina. E ciò ha contribuito a rafforzare la convinzione, da tempo diffusa, che, per riconciliare il diritto d’autore con gli obiettivi generali di efficienza dinamica del mercato digitale, sia necessaria una modifica delle direttive [50]. Alcuni autori propongono di espandere le eccezioni al diritto d’autore, vuoi introducendo una clausola generale di esenzione, sulla falsariga del “fair use” statunitense, vuoi aggiungendo una specifica eccezione che consenta tutte le forme di riproduzione necessarie per il funzionamento di sistemi tecnici innovativi, come l’IA [51]. In base ad un’altra impostazione, anziché intervenire sulle eccezioni, occorrerebbe modificare il diritto di riproduzione, limitandolo alle copie che sono destinate alla distribuzione ai consumatori finali. Dovrebbero essere, cioè, sottratte all’esclusiva tutte le copie “intermedie”, cioè le copie che sono prodotte per essere adoperate all’interno di un processo tecnologico [52]. Secondo alcuni autori, peraltro, questo risultato sarebbe in realtà già raggiungibile a livello interpretativo. Per riproduzione di un’opera si intende la moltiplicazione della stessa in copie. Il concetto di copia non è però definito nelle direttive e deve essere interpretato alla luce dell’obiettivo del diritto di riproduzione di assegnare all’autore un controllo sulla diffusione commerciale degli esemplari presso il pubblico. “Copie” sarebbero, allora, soltanto gli esemplari che sono destinati, in un modo o nell’altro, alla circolazione presso i consumatori finali; non quelli volti ad agevolare il funzionamento di procedimenti tecnici, che nulla hanno a che vedere con la “vita” commerciale dell’opera. La creazione di queste ultime copie e il loro eventuale trasferimento non richiederebbero quindi alcuna autorizzazione da parte dei titolari [53]. Quest’approccio è stato, a sua volta, criticato. Le tesi in esame fanno dipendere la qualifica di “copia” dallo scopo per cui un esemplare è prodotto. Il diritto di riproduzione è oggi definito dalle direttive come «il diritto esclusivo di autorizzare o vietare la riproduzione [...]
Come è noto, il diritto europeo prevede una forma di protezione anche per le “banche dati” (direttiva 96/9/CE). In questo campo, per “banca dati” si intende «una raccolta di opere, dati o altri elementi indipendenti sistematicamente o metodicamente disposti ed individualmente accessibili grazie a mezzi elettronici o in altro modo» (art. 1, par. 2, dir. 96/9). Quasi tutti i siti di contenuti, come quelli giornalistici, sembrano poter rientrare in questa definizione: essi infatti raccolgono “opere” (i.e. gli articoli o i testi pubblicati), le dispongono in maniera sistematica e offrono agli utenti meccanismi di accesso individuale [69]. Si pone quindi, a questo punto, anche la questione se la raccolta di testi dal web per l’addestramento dell’IA sia compatibile con i diritti sulle banche dati. 7.1. Diritto d’autore e diritto sui generis. Per le banche dati esistono due diverse forme di tutela. In primo luogo, il diritto d’autore protegge le banche dati dotate di carattere “creativo”, cioè quelle in cui la selezione o la disposizione dei materiali è il frutto di scelte originali (art. 3, dir. 96/9). La maggior parte delle risorse web adotta criteri di sistemazione standard e sembra dunque incapace di soddisfare questo requisito [70]. Il panorama di Internet è comunque estremamente variegato ed è ben possibile che tra i siti adoperati dall’IA ve ne siano anche alcuni “creativi”. Il diritto d’autore qui protegge comunque soltanto la struttura originale della banca dati, non i contenuti della stessa. I contenuti restano in linea di principio liberamente utilizzabili, fatto salvo naturalmente il caso in cui si tratti di opere a loro volta protette dal diritto d’autore (art. 3, par. 2, dir. 96/9) [71]. Dal canto loro, i crawler dell’IA in genere non replicano la struttura dei siti Internet. Essi riprendono soltanto i testi presenti sul sito, li traducono in un formato particolare e li riversano in una apposita banca dati ordinata secondo criteri diversi da quelli usati nel sito-fonte. Sotto questo profilo, il procedimento dell’IA non pare quindi entrare in conflitto con il diritto d’autore [72]. Le banche dati possono però anche essere protette dal diritto c.d. sui generis (art. 7 dir. 96/9 e art. 102-bis ss. l. aut.). A differenza del diritto d’autore, questo [...]
Bisogna riconoscere che alcune delle proposte interpretative qui formulate si pongono, in parte, in controtendenza rispetto agli orientamenti prevalenti in Europa e, soprattutto, rispetto alla tendenza “espansiva” generalmente adottata dalla Corte di Giustizia nell’interpretare la portata dell’esclusiva autoriale. Del resto, lo stesso AI Act, pur non apportando modifiche alle direttive sul diritto d’autore, sembra dare per scontato che, in linea di principio, l’uso dei contenuti protetti da parte dell’IA sia vietato. Su un piano realistico, non si può dunque prescindere dall’affrontare il problema del conflitto tra produzione culturale e IA anche in una prospettiva de iure condendo. D’altra parte, quest’analisi si rende necessaria anche per un’altra ragione. Analizzando il problema de iure condito, si è detto che ci sono casi in cui l’IA sfrutta le opere soltanto come fonte di informazioni e che queste situazioni dovrebbero collocarsi fuori dall’ambito del diritto d’autore. Questo non significa però che lasciare del tutto libera l’IA di servirsi delle informazioni presenti sul web sia, in assoluto, la maniera più equilibrata di regolare il fenomeno. L’IA generativa può trovare utile applicazione in numerosi settori. Può essere adoperata, ad es., per scopi di carattere scientifico, per la soluzione di problemi tecnici o per automatizzare certi aspetti di un processo produttivo. Ancora, può svolgere compiti di ricerca statistica o assistere l’utente nella comprensione, nell’analisi o nella stesura di documenti. In tutti questi casi, il servizio non si pone in diretta competizione con le attività delle imprese editoriali e la soluzione migliore resta probabilmente quella di consentire l’utilizzo libero di articoli e contenuti per l’addestramento dell’IA. Come già visto, però, ci sono anche sistemi di IA offerti al grande pubblico per rispondere alle domande più varie. In questo caso, l’utente potrebbe rivolgersi al chatbot per avere informazioni sulle notizie del giorno, su eventi di attualità, su temi storici, ecc. Allo stato questa funzionalità dell’IA non sembra essere arrivata ancora al punto da produrre un concreto impatto negativo sull’industria editoriale. Con l’affinamento dei servizi, però, l’IA [...]