Quand l'IA cite : Pourquoi une « source » n'est pas la même chose qu'une citation humaine

Rédacteur IA: Lukas Weber Industrial Technology Correspondent

Le débat autour de l'intelligence artificielle générative ne se limite plus à la question de savoir si un système fournit des réponses correctes. La question plus complexe est de savoir si, lorsqu'il fait référence à des textes d'autrui, il remplit la même fonction qu'une citation humaine – ou s'il ne fait qu'apparaître convaincant sur le plan linguistique, sans endosser le poids culturel et juridique C’est précisément à ce croisement que se confrontent technique, droit d’auteur et attentes des utilisateurs.

Le Bureau américain du droit d'auteur (U.S. Copyright Office) a clairement recentré le débat au niveau des principes en vigueur dans plusieurs sections de son rapport sur l'intelligence artificielle.[1][7][9] Dans la deuxième partie, il est indiqué que les règles existantes en matière de droit d'auteur sont suffisamment flexibles pour traiter aussi bien l'IA générative ; en même temps, il est souligné que les productions de l'IA ne sont protégeables que si un être[7][9] Cela est important pour la question de la citation car l'administration y trace une ligne claire : toute proximité textuelle générée automatiquement n'est pas nécessairement une création originale indépendante.

Le conflit entre The New York Times et OpenAI affine encore cette ligne.[2][5][8][10] Selon les accusations publiques, il ne s'agit pas seulement de l'entraînement aux textes journalistiques, mais aussi de l'affirmation que les productions du système reproduiraient parfois des passages quasi identiques d'articles, pouvant ainsi remplacer l'« »[2][5][8][10] OpenAI, en réponse, invoque le principe de fair use et le fait que les modèles ne sont pas conçus comme des substituts directs des contenus de presse.[2][5][8] Juridiques, une question centrale reste ouverte : un modèle qui se rapproche beaucoup de l'original est-il encore un système de recherche et de génération – ou déjà un vecteur de diffusion de contenu d'autrui ?

Pour classer techniquement ces questions, RAG – Retrieval-Augmented Generation – constitue un contrepoint utile.[3][11][12] Cette méthode combine un modèle linguistique avec une recherche externe et vise à fournir des réponses basées sur une source clairement identifiable.[3][11][12] Les descriptions de tels systèmes mettent précisément ce point en avant : ils peuvent fournir des sources que les utilisateurs peuvent vérifier, instaurant ainsi la confiance.[11][12] Cependant, cela ne correspond pas encore à ce qu'est une citation au sens humain. Un système RAG peut afficher des preuves sans « comprendre » pourquoi une citation est marquée, délimitée et contextualisée dans la pratique scientifique ou journalistique.

C’est pourquoi la confusion entre mention de source et citation est si persistante. Les humains citent pour rendre visible l'origine, l’autorité et la démarcation ; cette pratique est liée à une responsabilité. Un modèle, en revanche, combine des schémas issus de l'entraînement, de la recherche et de la génération.[1][11][12] Il peut fournir des indices d’origine sans avoir lui-même l’intention de citer.[1][11][12] La différence paraît sémantique, mais elle est importante dans l’industrie : les équipes produits développent actuellement des interfaces destinées à instaurer la confiance, mais elles tombent vite dans l’attente qu’une liste de sources remplace déjà une forme

À l’opposé, auteurs et éditeurs considèrent cette hypothèse comme dangereuse.[4][6] Dans les prises de position disponibles, il est avancé que l’utilisation non autorisée d’œuvres créatives lors de l’entraînement met en danger les revenus des créateurs et ne peut être réduite à un simple traitement technique intermédiaire.[4][6] C’est là que le cœur économique du débat réside : entraîner un modèle avec des textes d’autrui ne produit pas seulement des paramètres mathématiques, cela modifie aussi le pouvoir de négociation sur les licences, les rémunérations et la visibilité. Pour les contenus d’actualité et spécialisés, c’est particulièrement sensible, car leur viabilité économique dépend d’une attribution claire.

Pourtant, il reste incertain où se situe exactement la limite entre reconstitution admissible et reproduction illicite. Les sources actuelles révèlent surtout deux choses : premièrement, que tribunaux et autorités ne veulent pas considérer l'IA générative comme un cas exceptionnel ; deuxièmement, que la question de la preuve est techniquement complexe.[1][7][9][10] Un incident isolé avec une quasi-reproduction littérale n'indique pas grand-chose sur le système dans son ensemble.[2][10] Pour juger de manière plus fiable, il faudrait des données précises sur la fréquence de telles occurrences, les conditions des requêtes (prompts) associées et la possibilité de les reproduire intentionnellement.

C’est d’ailleurs pourquoi la question de la « citation » dans l’IA est aussi une question d’architecture produit. Si un système ne génère que des énoncés sans différencier clairement l’origine, la mention de source est souvent plus décorative que probante. À l’inverse, s’il fonctionne sur une base de recherche, qu’il rend visibles les preuves et distingue clairement entre entraînement et source externe, il s’approche au moins de la fonction que les utilisateurs attendent d’une citation.[3][11][12] Le défi n'est que rarement le modèle seul. C’est l’intégration de la recherche, de l'affichage, des licences et de la responsabilité dans un système simple d’usage pour les utilisateurs.

Du point de vue européen, cela dépasse un simple litige juridique américain lié à un secteur donné. Dès que des systèmes d’IA sont intégrés dans des rédactions, bases de connaissances, outils juridiques ou chaînes industrielles de documentation, la manière dont sont gérés les sources conditionne à la fois confiance et risques.[3][6][7][9] Une référence mal placée n’est alors pas seulement un problème de style, elle peut compromettre des processus, des chaînes de vérification et soulever des questions de responsabilité. Il s'agit donc de ne pas se focaliser sur le terme séduisant de « citation », mais sur une pratique plus solide : qui fournit la source, qui la vérifie, et que se passe-t-il si le système se rapproche trop de l’original ? Ces questions sont celles qui prolongeront le débat sur l’IA et le droit d’auteur bien au-delà de toute réponse rapide sur un écran.

Références

Les petits numéros dans le corps du texte renvoient aux sources ci-dessous.

ARTICLES À LIRE

Quand l'IA cite : Pourquoi une « source » n'est pas la même chose qu'une citation humaine

Références

Articles sélectionnés