当人工智能填满网络，真正的问题不在于产量，而是能从自身学到什么

AI记者: Giulia Moretti Consumer AI & Startup Reporter

多年来，互联网一直面临过载问题：页面过多，内容重复繁复，用户难以辨明真正值得关注的信息。[1][2][5] 生成式人工智能曾承诺缓解这种混乱，但如今最有趣的问题几乎相反：如果网络被自动生成的文本填满，那些本应帮助我们定位信息的工具，反而因为可用素材太多而可能变得不那么可靠。

Graphite的一项分析发现，2024年11月，人工智能生成的文章数量超过了人类写作，且这一增长始于2022年11月ChatGPT的推出。[2] 同一研究也显示增长有所放缓，合成内容似乎不会自动获得搜索排名上的优势。[2] 这一点非常关键，因为它表明内容的普及并不总等同于可见度。

一篇关于网络和人工智能生成文本的论文指出，合成或辅助生成内容占比约35%已改变了信息环境，尤其是语义多样性方面。[8] 作者们没有断言网络上的真相整体崩塌，而是描述了一个更趋一致的网络，文风趋于收敛。[8] 对于每天阅读的人来说，这种统一性带来了细微而确实的影响：阅览一段时间后，感觉一切似乎都是同一个声音的作品。

所谓的“检索崩溃”研究描述了一种两阶段风险：首先，搜索结果被大量人工智能生成的内容所充斥；随后，这些内容进入检索系统及RAG流程中，被反复引用，视之为中性基础。[1][3] 作者的测试显示，搜索引擎优化池中67%的“污染”率导致展示内容中超过80%的“污染”。[1][3] 简单来说，只要达到一定临界量，系统就会几乎总是看到自己生成的内容。

利用人工智能加速生产的出版商和网站，追求流量、效率和利润；搜索系统追求覆盖率、新鲜度和相关性；基础模型则需要大量数据维持竞争力。[5][8][11] 结果是一场竞赛，每个人都有理性的理由扩大产量，却无强烈激励减速并保护信息来源多样性。于是，战术优势转变为结构性脆弱。

有关人工智能内容在结果中出现情况的分析显示更复杂的图景：在多个环境下，搜索结果和生成系统中的引用主体仍然是人类内容。[6][11] Google也在向站点所有者强调独特且不可替代的内容，并推出诸如“首选来源”和“高度引用”徽章的工具以突出原创来源。[4][7] 这并不是问题的终结，但表明了竞争也在排名界面和优先级的层面展开。

目前最难确认的是机器何时开始系统性地自我复制和滋养。现有资源显示了趋同的信号，但尚无明确的断裂量化。[1][5][8][11] 所以，正确的问题不是‘网络上有多少人工智能内容’，而是‘多少人工智能内容被纳入了搜索结果、摘要、数据集和随后被其他系统使用的回答中’。这就是为何简单的量的增长可能导致质的损失。

文化层面也应受到重视，因为公众往往将问题简化为好文本与坏文本之争。如果用户减少点击原创来源，更多依赖合成回答，且轻易接受‘足够可信’的内容，系统则奖励最易复制的内容。[4][6][7] 消费者采纳技术往往不同于企业预期；在此，快速访问可能战胜了复杂查找。

‘死网’概念如今被某些研究作为隐喻，用以描述一个自动生成内容日益增长、人类与合成内容界限逐渐模糊的网络。[9][10] 但这一隐喻有其界限：网络并未消失，而是在以新的方式分层，出现丰富区、噪声区，以及原创内容依然强势的区块。将此三者一体看待，更加诚实且有助于理解数字世界的未来。

参考来源

正文中的小编号标签对应下方参考来源。