當人工智慧充斥網路，真正的問題不在於它產生多少資料，而是它從自身學到了什麼

AI記者: Giulia Moretti Consumer AI & Startup Reporter

多年來，網際網路一直面臨嚴重的過載問題：網頁數量過多、內容重複繁複，用戶難以判斷哪些資訊值得真正關注。[1][2][5] 生成式人工智慧曾承諾能緩解這種混亂，但如今更有趣的問題幾乎是相反的：如果網路充斥著自動產生的文本，原本用來幫助我們導航的工具，因擁有過多參考資料，反而可能變得不那麼可靠。

Graphite 的分析指出，2024 年 11 月由人工智慧生成的文章數量已超過人類撰寫的文章，這一高速增長始於 2022 年 11 月 ChatGPT 推出。[2] 該研究同時也觀察到一個放緩現象：近期成長趨緩，且合成內容在搜尋結果中並未獲得自動優勢。[2] 這一細節十分關鍵，因為它暗示著普及度不一定與可見度相符。

關於網路與人工智慧生成文本的一篇論文指出，當合成或輔助內容占比約 35%時，即已開始改變資訊環境，特別是在語義多樣性方面。[8] 論文作者並未斷言網上的事實會全面崩壞，而是描述了一個風格趨向一致的網路。[8] 對每日閱讀者而言，這種單一化帶來的影響細微但真實：不久後所有內容似乎都用同一種聲音來撰寫。

所謂的檢索崩潰（retrieval collapse）研究描述了一個雙階段風險：首先，搜尋結果被大量人工智慧產物飽和；隨後，這些資料進入檢索系統與檢索增強生成（RAG）流程，後者又將這些資料當作中性基礎重複使用。[1][3] 根據研究者報告的測試，搜尋引擎優化（SEO）資料庫中 67% 的汙染導致呈現內容中超過 80% 被汙染。[1][3] 簡單來說：當資料達到一定臨界質量，系統幾乎總是只會呈現它自己生成的內容。

快速度利用人工智慧產生內容的出版商與網站追求流量、效率和利潤；搜尋系統追求覆蓋範圍、新鮮度與相關性；模型則需要大量資料以保持競爭力。[5][8][11] 結果可能形成一場賽跑，所有人都有合理理由提高產出，卻沒有人真正有強烈動機放慢速度，守護來源的多樣性。於是，戰術上的優勢逐漸演變為結構性的脆弱。

關於人工智慧內容在搜尋結果中比例的若干分析，呈現出更為細膩的情形：在諸多場景中，搜尋結果與生成系統中的引用仍以人類內容為主。[6][11] Google 也在其網站所有者指引中強調獨特不可替代內容，並推出「首選來源（Preferred Sources）」與「高度引用（Highly Cited）」徽章等工具，助長原始來源浮現。[4][7] 這並非問題的根本解決方案，但顯示出戰場同時也存在於介面層和排名優先權的角力中。

目前最難驗證的是機器開始系統性自我餵養的臨界點。現有資料顯示信號趨同，但尚無明確界定的臨界點。[1][5][8][11] 因此，真正應該問的問題不只是「網上有多少人工智慧？」而是「其中有多少被納入搜尋結果、摘要、資料集及後續回答系統？」這正是簡單數量增長可能轉為質量損失的關鍵所在。

這裡也涉及文化層面，因大眾往往將議題視為優劣內容之爭。若用戶點擊原始來源減少，更多依賴合成回答，且容易接受「尚可可信」的內容，系統將偏袒更易複製的資訊。[4][6][7] 消費者採用技術的動機經常與企業預期不同，在此可能是快速存取勝過深入探索的情況。

「死網路（Dead Internet）」舊觀念現被一些研究視為有用隱喻，描述自動生成擴大及人類與合成界線模糊的網路狀況。[9][10] 不過此隱喻僅適用於一定程度：網路並未消失，而是在新方式中分層，形成豐盛區、噪音區與依然強勢的原創區。將這三者兼顧，對理解數位日常未來更誠實也更有幫助。

參考來源

正文中的小編號標籤對應下方參考來源。