Industrial Technology Correspondent
In der Auseinandersetzung um generative KI geht es längst nicht mehr nur darum, ob ein System richtige Antworten liefert. Die härtere Frage lautet, ob es beim Verweisen auf fremde Texte dieselbe Funktion erfüllt wie ein menschliches Zitat – oder ob es lediglich sprachlich überzeugend wirkt, ohne die kulturelle und rechtliche Last des Zitierens zu tragen. Genau an dieser Stelle treffen Technik, Urheberrecht und die Erwartungen der Nutzer aufeinander.
Der U.S. Copyright Office hat die Debatte in mehreren Teilen seines Berichts zu künstlicher Intelligenz ausdrücklich auf die Ebene der geltenden Grundsätze gezogen.[1][7][9] Im zweiten Teil heißt es, dass bestehende Copyright-Regeln flexibel genug seien, um auch generative KI zu behandeln; zugleich wird festgehalten, dass KI-Ausgaben nur dann schutzfähig sind, wenn ein Mensch die expressiven Elemente hinreichend bestimmt hat.[7][9] Für die Frage des Zitats ist das wichtig, weil die Behörde damit eine Linie zieht: Nicht jede maschinell erzeugte Textnähe ist bereits eine eigenständige schöpferische Leistung.
Der Streit zwischen The New York Times und OpenAI schärft diese Linie weiter.[2][5][8][10] Nach den öffentlich bekannten Vorwürfen geht es nicht nur um das Training auf journalistischen Texten, sondern auch um die Behauptung, dass Ausgaben aus dem System teils nahezu wortgleiche Passagen aus Artikeln wiedergeben und damit ein Ersatz für das Original werden könnten.[2][5][8][10] OpenAI verweist demgegenüber auf Fair Use und darauf, dass die Modelle nicht als direkte Substitute für die Zeitungsinhalte gedacht seien.[2][5][8] Juristisch ist damit eine Kernfrage offen: Ist ein Modell, das an manchen Stellen sehr nah am Original bleibt, noch ein Such- und Generierungssystem – oder bereits ein Vertriebsweg für fremde Inhalte?
Für die technische Einordnung ist RAG, also Retrieval-Augmented Generation, ein nützlicher Gegenentwurf.[3][11][12] Das Verfahren verbindet ein Sprachmodell mit externer Suche und soll Antworten auf eine nachvollziehbare Quellenbasis stellen.[3][11][12] In Beschreibungen solcher Systeme wird genau dieser Punkt hervorgehoben: Sie können Quellen liefern, die Nutzer prüfen können, und damit Vertrauen herstellen.[11][12] Das ist aber noch nicht dasselbe wie ein Zitat im menschlichen Sinn. Ein RAG-System kann Belege anzeigen, ohne zu „verstehen“, warum ein Zitat in der wissenschaftlichen oder journalistischen Praxis markiert, eingegrenzt und kontextualisiert wird.
Deshalb ist die Verwechslung zwischen Quellenhinweis und Zitat so hartnäckig. Menschen zitieren, um Herkunft, Autorität und Abgrenzung sichtbar zu machen; die Praxis ist an Verantwortung gebunden. Ein Modell dagegen kombiniert Muster aus Training, Retrieval und Generierung.[1][11][12] Es kann Herkunftssignale ausgeben, ohne selbst eine Zitierabsicht zu haben.[1][11][12] Der Unterschied klingt semantisch, ist industriell aber relevant: Produktteams bauen gerade an Interfaces, die Vertrauen erzeugen sollen, und sie laufen dabei schnell in die Erwartung, dass eine Quellenliste bereits eine Art redaktionelle Sorgfalt ersetzt.
Auf der anderen Seite stehen Autorinnen, Autoren und Verlage, die genau diese Annahme für gefährlich halten.[4][6] In den vorliegenden Stellungnahmen wird argumentiert, dass unlizenzierte Nutzung kreativer Werke beim Training den Lebensunterhalt der Urheber unter Druck setzt und nicht einfach als bloße technische Zwischenverarbeitung abgetan werden kann.[4][6] Hier liegt der ökonomische Kern der Debatte: Wer mit fremden Texten ein Modell trainiert, produziert nicht nur mathematische Parameter, sondern verschiebt auch die Verhandlungsmacht über Lizenzierung, Vergütung und Sichtbarkeit. Für Nachrichten- und Fachinhalte ist das besonders sensibel, weil ihre wirtschaftliche Grundlage von sauberer Zuordnung abhängt.
Trotzdem bleibt offen, wo genau die Grenze zwischen zulässiger Rekonstruktion und unzulässiger Übernahme verläuft. Die derzeitigen Quellen zeigen vor allem zwei Dinge: Erstens, dass Gerichte und Behörden generative KI nicht als Ausnahmefall behandeln wollen; zweitens, dass die Beweisfrage technisch anspruchsvoll ist.[1][7][9][10] Ein einzelner Vorfall mit einem fast wörtlichen Auszug sagt noch wenig über das gesamte System aus.[2][10] Um belastbarer urteilen zu können, bräuchte es genauere Daten darüber, wie oft solche Ausgaben auftreten, unter welchen Prompt-Bedingungen sie entstehen und ob sie sich gezielt reproduzieren lassen.
Gerade deshalb ist die Frage nach „Zitieren“ bei KI auch eine Frage nach Produktarchitektur. Wenn ein System nur Aussagen generiert, ohne Herkunft sauber zu trennen, ist der Quellenhinweis oft eher Dekoration als Nachweis. Wenn es dagegen suchbasiert arbeitet, Belege sichtbar macht und die Trennlinie zwischen Training und externer Fundstelle offenlegt, nähert es sich zumindest der Funktion an, die Nutzer von einem Zitat erwarten.[3][11][12] Die Herausforderung ist selten das Modell allein. Es ist die Integration von Abruf, Anzeige, Lizenzierung und Haftung in ein System, das für Anwender einfach wirken soll.
Für die europäische Perspektive ist das mehr als ein US-Rechtsstreit mit Branchenbezug. Sobald KI-Systeme in Redaktionen, Wissensdatenbanken, Rechtsanwendungen oder industrielle Dokumentationsketten eingebaut werden, entscheidet die Art des Quellenumgangs über Vertrauen und Risiko zugleich.[3][6][7][9] Ein falsch gesetzter Verweis ist dort nicht nur ein Stilproblem, sondern kann Prozesse, Prüfketten und Haftungsfragen berühren. Darum sollte man nicht nach dem glamourösen Begriff „Zitat“ fragen, sondern nach der belastbareren Praxis: Wer liefert die Quelle, wer prüft sie, und was passiert, wenn das System zu nah am Original bleibt? Genau diese Fragen werden die Debatte über KI und Urheberrecht länger tragen als jede schnelle Antwort auf dem Bildschirm.
Quellen
Quellen
Die kleinen nummerierten Marker im Text verweisen auf die unten stehenden Quellen.
- [PDF] Copyright and Artificial Intelligence, Part 2 Copyrightability Report
- OpenAI Claps Back at NYT Lawsuit
- Incorporating Legal Structure in Retrieval-Augmented Generation: A Case Study on Copyright Fair Use
- [PDF] Copyright and Artificial Intelligence, Part 3: Generative AI Training ...
- [PDF] The New York Times, OpenAI, and the Copyright Implications of AI ...
- May 3, 2024 Via E-Mail Suzanne Wilson General Counsel ...
- Copyright Office Releases Part 2 of Artificial Intelligence Report
- Stolen Stories or Fair Use? The New York Times v. OpenAI and the Limits of Machine Learning — Columbia Undergraduate Law Review
- Copyright and Artificial Intelligence | U.S. Copyright Office
- Exploring Memorization and Copyright Violation in Frontier LLMs: A Study of the New York Times v. OpenAI 2023 Lawsuit
- What Is Retrieval-Augmented Generation aka RAG - NVIDIA Blog
- Aman's AI Journal • Primers • Retrieval Augmented Generation
EMPFOHLENE ARTIKEL
Empfohlene Artikel
-
Generative KI und Foundation Models
Wenn KI-Text zur Massenware wird, verlagert sich der Wert auf Erfahrung und Glaubwürdigkeit
Einordnungsstück über den Wert von KI-generiertem Text im Lichte von Authorship-Forschung, Glaubwürdigkeitsstudien und älteren Debatten um Reproduzierbarkeit.
-
Generative KI und Foundation Models
Warum können KI-Unternehmen den Benchmark-Wettbewerb nicht aufgeben?
Der Leistungskampf bei großen Sprachmodellen hat eine Stufe erreicht, auf der einzelne Benchmarks die wahre Leistungsfähigkeit nicht mehr vollständig erfassen, wie die vielschichti
-
Generative KI und Foundation Models
Open-Source-KI hat ein Definitionsproblem
Dieser Artikel betrachtet die Debatte um Open-Source-KI als Frage der Governance und Infrastruktur statt als Streit um Begrifflichkeiten.