Industrial Technology Correspondent

Nel confronto sull'intelligenza artificiale generativa non si discute più soltanto se un sistema fornisca risposte corrette. La questione più complessa riguarda se nel riferirsi a testi altrui esso svolga la stessa funzione di una citazione umana — oppure semplicemente appaia linguisticamente convincente senza portare il carico culturale e giuridico del citare. Proprio in questo punto si incontrano tecnologia, diritto d’autore e le aspettative degli utenti.

L'U.S. Copyright Office ha esplicitamente portato il dibattito ai principi fondamentali vigenti in diversi parti del suo rapporto sull'intelligenza artificiale.[1][7][9] Nel secondo capitolo si afferma che le regole sul copyright sono sufficientemente flessibili da includere anche l'IA generativa; contestualmente si sottolinea che le produzioni IA sono protette solo se un umano ha sufficientemente determinato gli elementi espr[7][9] Questo è rilevante per la questione della citazione, perché l'ente fissa un confine: non ogni prossimità testuale prodotta da macchina è già un'opera creativa autonoma.

La controversia tra The New York Times e OpenAI raffina ulteriormente questo confine.[2][5][8][10] Dalle accuse pubblicamente note, la disputa riguarda non solo l'uso di testi giornalistici per l’addestramento, ma anche l’affermazione che le uscite del sistema a volte riproducano passaggi quasi identici agli articoli, potenzialmente sostituendo l’originale.[2][5][8][10] OpenAI, dal canto suo, invoca il principio del Fair Use e sostiene che i modelli non sono pensati come sostituti diretti dei contenuti giornalistici.[2][5][8] Giuridicamente rimane una questione centrale: un modello che resta molto vicino all’originale è ancora un sistema di ricerca e generazione o diventa un canale di distribuzione di contenuti altrui?

Per la categorizzazione tecnica, la RAG, ovvero Retrieval-Augmented Generation, è una controproposta utile.[3][11][12] Questa tecnica combina un modello linguistico con una ricerca esterna e mira a fornire risposte basate su una fonte verificabile.[3][11][12] Nelle descrizioni di questi sistemi viene sottolineato proprio questo aspetto: possono fornire fonti controllabili dagli utenti, aumentando la fiducia.[11][12] Tuttavia ciò non equivale ancora a una citazione nel senso umano del termine. Un sistema RAG può mostrare prove senza 'comprendere' perché in ambito scientifico o giornalistico una citazione viene marcata, delimitata e contestualizzata.

Per questo motivo la confusione tra indicazione di fonte e citazione è così persistente. Gli esseri umani citano per evidenziare origine, autorevolezza e distinzione; la pratica comporta responsabilità. Un modello invece combina schemi di addestramento, recupero e generazione.[1][11][12] Può emettere segnali di provenienza senza avere l’intenzione di citare.[1][11][12] La differenza sembra semantica, ma è rilevante industrialmente: i team prodotto stanno costruendo interfacce per generare fiducia e spesso si trovano a dover affrontare l’aspettativa che una lista di fonti sostituisca una reale cura editoriale.

Dall'altra parte ci sono autori e editori che considerano questo presupposto pericoloso.[4][6] Nelle dichiarazioni presenti si sostiene che l’uso non autorizzato di opere creative durante l’addestramento mette a rischio il sostentamento degli autori e non può essere trattato come una semplice elaborazione tecnica intermedia.[4][6] Qui si trova il nocciolo economico del dibattito: chi addestra un modello con testi altrui non produce solo parametri matematici, ma riequilibra anche il potere negoziale su licenze, compensi e visibilità. Per contenuti giornalistici e specialistici questo è particolarmente delicato, perché la loro base economica dipende da una chiara attribuzione.

Resta però incerto dove si trovi esattamente il limite tra ricostruzione permessa e uso non consentito. Le fonti attuali mostrano due cose principalmente: primo, che giudici e autorità non vogliono considerare l’IA generativa un’eccezione; secondo, che la questione probatoria è tecnicamente complessa.[1][7][9][10] Un singolo caso di estratto quasi letterale dice poco sull’intero sistema.[2][10] Per valutazioni più affidabili servirebbero dati più precisi su frequenza, condizioni d’uso dei prompt e possibilità di riproduzione mirata di queste uscite.

Proprio per questo la questione del “citare” nell’IA è anche una questione di architettura del prodotto. Se un sistema genera solo enunciati senza separare chiaramente la provenienza, il riferimento alla fonte spesso è più decorativo che probatorio. Se invece funziona basandosi sulla ricerca, mostra le prove e rende trasparente il confine tra addestramento e fonte esterna, si avvicina almeno alla funzione che gli utenti si aspettano da una citazione.[3][11][12] La sfida raramente è solo il modello in sé. È l’integrazione di recupero, visualizzazione, licenza e responsabilità in un sistema che deve risultare semplice per l’utente.

Dal punto di vista europeo, non si tratta soltanto di una controversia legale statunitense con implicazioni di settore. Non appena i sistemi IA vengono integrati in redazioni, banche dati, applicazioni legali o filiere industriali di documentazione, il modo in cui si gestiscono le fonti decide contemporaneamente fiducia e rischio.[3][6][7][9] Un rimando errato non è solo una questione di stile, ma può influire su processi, catene di verifica e responsabilità. Perciò non si dovrebbe discutere del termine altisonante “citazione”, ma di una pratica più solida: chi fornisce la fonte, chi la controlla e cosa accade se il sistema resta troppo vicino all’originale? Proprio queste domande guideranno più a lungo il dibattito su IA e diritto d'autore di qualsiasi risposta lampo sullo schermo.

Giuridicamente rimane una questione centrale: un modello che resta molto vicino all’originale è ancora un sistema di ricerca e generazione o diventa un canale di distribuzione di contenuti altrui?