Wenn KI das Web füllt, ist die eigentliche Frage nicht, wie viel sie produziert, sondern was sie aus sich selbst lernt

KI-Autor: Giulia Moretti Consumer AI & Startup Reporter

Internet hatte jahrelang das Problem der Überlastung: Zu viele Seiten, zu viele sich wiederholende Inhalte, zu viel Aufwand, um wirklich wichtigen Dingen Beachtung zu schenken.[1][2][5] Generative KI versprach, dieses Chaos zu entschärfen, doch mittlerweile ist die interessantere Frage fast das Gegenteil: Wenn das Web mit automatisch erzeugten Texten vollgepackt wird, laufen die Tools, die uns bei der Orientierung helfen sollen, Gefahr, genau

Eine Analyse von Graphite stellte fest, dass im November 2024 mehr Artikel von KI erzeugt wurden als von Menschen, nach einem sehr schnellen Wachstum, das mit dem Start von ChatGPT im November 2022 begann.[2] Im selben Bericht zeigt sich jedoch auch eine Bremse: Das Wachstum hat sich verlangsamt und synthetische Inhalte erhalten offenbar nicht automatisch einen Vorteil in den Suchergebnissen.[2] Das ist ein wichtiges Detail, weil es nahelegt, dass Verbreitung nicht gleich Sichtbarkeit ist.

Eine Studie zu Web und KI-generiertem Text beobachtet, dass ein Anteil von rund 35 % synthetischer oder assistierter Inhalte die Informationslandschaft bereits verändert, insbesondere was die semantische Vielfalt betrifft.[8] Die Autoren sagen nicht, dass die Online-Wahrheit komplett zusammenbricht; sie beschreiben vielmehr ein homogeneres Web, in dem sich der Stil angleicht.[8] Für tägliche Leser hat diese Uniformität einen subtilen aber echten Effekt: Nach einer Weile scheint alles mit derselben Stimme geschrieben zu sein.

Die Studie zum sogenannten Retrieval Collapse beschreibt ein zweistufiges Risiko: Zuerst werden Suchergebnisse von KI-generierten Materialien übersättigt, dann gelangen diese Materialien in Retrieval-Systeme und RAG-Flows, die sie wiederum wie eine neutrale[1][3] In den Tests der Autoren führte eine Kontamination von 67 % im SEO-Pool zu über 80 % Kontamination bei der Anzeige.[1][3] Einfach gesagt: Es braucht nur eine gewisse kritische Masse, damit das System fast immer das sieht, was es selbst erzeugt hat.

Verlage und Websites, die KI für schnellere Produktion nutzen, jagen Traffic, Effizienz und Margen; Suchsysteme streben nach Abdeckung, Aktualität und Relevanz; und die Modelle brauchen große Datenmengen, um konkurrenzfähig zu bleiben.[5][8][11] Das Ergebnis kann ein Wettlauf sein, bei dem jeder rationale Gründe hat, die Produktion zu erhöhen, aber niemand wirklich stark motiviert ist, zu verlangsamen und die Vielfalt der Quellen zu schützen. So verwandelt sich ein taktischer Vorteil in eine strukturelle Schwäche.

Einige Analysen zur Präsenz von KI-Inhalten in den Ergebnissen zeigen ein differenzierteres Bild: In verschiedenen Kontexten bleiben Suchergebnisse und Zitierungen in generativen Systemen überwiegend menschlich.[6][11] Auch Google betont in seinen Hinweise an Webmaster einzigartige und nicht austauschbare Inhalte und führt Werkzeuge wie Preferred Sources und das Badge Highly Cited ein, um originale Quellen hervorzuheben.[4][7] Das löst das Problem nicht, aber zeigt, dass der Kampf auch auf der Ebene der Benutzeroberfläche und Ranking-Prioritäten ausgetragen wird.

Das heute schwer zu verifizierende Element ist genau die Schwelle, ab der die Maschine systematisch von sich selbst zu lernen beginnt. Die verfügbaren Quellen zeigen konvergente Signale, aber keinen endgültigen Bruchpunkt.[1][5][8][11] Deshalb ist die richtige Frage nicht nur „Wie viel KI ist online?“, sondern „Wie viel dieser KI findet sich in Ergebnissen, Zusammenfassungen, Datensätzen und Antworten, die dann andere Systeme verwenden?“. Dort kann eine bloße quantitative Zunahme zu einem qualitativen Verlust werden.

Es gibt auch eine kulturelle Dimension, die Aufmerksamkeit verdient, denn die Öffentlichkeit sieht das Thema oft als Streit zwischen guten und schlechten Texten. Wenn Menschen weniger auf Originalquellen klicken, sich mehr auf synthetische Antworten verlassen und „hinreichend glaubwürdige“ Inhalte leicht akzeptieren, belohnt das System genau das, was einfacher zu replizieren ist.[4][6][7] Konsumenten nehmen Technologie selten aus den Gründen an, die Unternehmen sich vorstellen; hier könnte Ähnliches passieren, bei dem schneller Zugriff die Suche nach Komplexität schlägt.

Die alte Idee des „Dead Internet“ wird heute in einigen Untersuchungen als nützliche Metapher verwendet, um ein Web zu beschreiben, in dem automatische Produktion wächst und die Grenze zwischen menschlich und synthetisch unschärfer wird.[9][10] Doch die Metapher funktioniert nur bis zu einem gewissen Grad: Das Web ist nicht verschwunden, es schichtet sich vielmehr neu, mit Zonen von Fülle, Zonen von Lärm und Bereichen, in denen Originalquellen weiterhin stark sind. Diese drei Perspektiven zusammenzuhalten ist ehrlicher und hilfreicher, um die Zukunft des digitalen Alltags zu verstehen.

Quellen

Die kleinen nummerierten Marker im Text verweisen auf die unten stehenden Quellen.