Consumer AI & Startup Reporter

多年來,網際網路一直面臨嚴重的過載問題:網頁數量過多、內容重複繁複,用戶難以判斷哪些資訊值得真正關注。[1][2][5] 生成式人工智慧曾承諾能緩解這種混亂,但如今更有趣的問題幾乎是相反的:如果網路充斥著自動產生的文本,原本用來幫助我們導航的工具,因擁有過多參考資料,反而可能變得不那麼可靠。

Graphite 的分析指出,2024 年 11 月由人工智慧生成的文章數量已超過人類撰寫的文章,這一高速增長始於 2022 年 11 月 ChatGPT 推出。[2] 該研究同時也觀察到一個放緩現象:近期成長趨緩,且合成內容在搜尋結果中並未獲得自動優勢。[2] 這一細節十分關鍵,因為它暗示著普及度不一定與可見度相符。

關於網路與人工智慧生成文本的一篇論文指出,當合成或輔助內容占比約 35%時,即已開始改變資訊環境,特別是在語義多樣性方面。[8] 論文作者並未斷言網上的事實會全面崩壞,而是描述了一個風格趨向一致的網路。[8] 對每日閱讀者而言,這種單一化帶來的影響細微但真實:不久後所有內容似乎都用同一種聲音來撰寫。

所謂的檢索崩潰(retrieval collapse)研究描述了一個雙階段風險:首先,搜尋結果被大量人工智慧產物飽和;隨後,這些資料進入檢索系統與檢索增強生成(RAG)流程,後者又將這些資料當作中性基礎重複使用。[1][3] 根據研究者報告的測試,搜尋引擎優化(SEO)資料庫中 67% 的汙染導致呈現內容中超過 80% 被汙染。[1][3] 簡單來說:當資料達到一定臨界質量,系統幾乎總是只會呈現它自己生成的內容。

快速度利用人工智慧產生內容的出版商與網站追求流量、效率和利潤;搜尋系統追求覆蓋範圍、新鮮度與相關性;模型則需要大量資料以保持競爭力。[5][8][11] 結果可能形成一場賽跑,所有人都有合理理由提高產出,卻沒有人真正有強烈動機放慢速度,守護來源的多樣性。 於是,戰術上的優勢逐漸演變為結構性的脆弱。

關於人工智慧內容在搜尋結果中比例的若干分析,呈現出更為細膩的情形:在諸多場景中,搜尋結果與生成系統中的引用仍以人類內容為主。[6][11] Google 也在其網站所有者指引中強調獨特不可替代內容,並推出「首選來源(Preferred Sources)」與「高度引用(Highly Cited)」徽章等工具,助長原始來源浮現。[4][7] 這並非問題的根本解決方案,但顯示出戰場同時也存在於介面層和排名優先權的角力中。

目前最難驗證的是機器開始系統性自我餵養的臨界點。 現有資料顯示信號趨同,但尚無明確界定的臨界點。[1][5][8][11] 因此,真正應該問的問題不只是「網上有多少人工智慧?」而是「其中有多少被納入搜尋結果、摘要、資料集及後續回答系統?」 這正是簡單數量增長可能轉為質量損失的關鍵所在。

這裡也涉及文化層面,因大眾往往將議題視為優劣內容之爭。 若用戶點擊原始來源減少,更多依賴合成回答,且容易接受「尚可可信」的內容,系統將偏袒更易複製的資訊。[4][6][7] 消費者採用技術的動機經常與企業預期不同,在此可能是快速存取勝過深入探索的情況。

「死網路(Dead Internet)」舊觀念現被一些研究視為有用隱喻,描述自動生成擴大及人類與合成界線模糊的網路狀況。[9][10] 不過此隱喻僅適用於一定程度:網路並未消失,而是在新方式中分層,形成豐盛區、噪音區與依然強勢的原創區。 將這三者兼顧,對理解數位日常未來更誠實也更有幫助。