Consumer AI & Startup Reporter

多年来,互联网一直面临过载问题:页面过多,内容重复繁复,用户难以辨明真正值得关注的信息。[1][2][5] 生成式人工智能曾承诺缓解这种混乱,但如今最有趣的问题几乎相反:如果网络被自动生成的文本填满,那些本应帮助我们定位信息的工具,反而因为可用素材太多而可能变得不那么可靠。

Graphite的一项分析发现,2024年11月,人工智能生成的文章数量超过了人类写作,且这一增长始于2022年11月ChatGPT的推出。[2] 同一研究也显示增长有所放缓,合成内容似乎不会自动获得搜索排名上的优势。[2] 这一点非常关键,因为它表明内容的普及并不总等同于可见度。

一篇关于网络和人工智能生成文本的论文指出,合成或辅助生成内容占比约35%已改变了信息环境,尤其是语义多样性方面。[8] 作者们没有断言网络上的真相整体崩塌,而是描述了一个更趋一致的网络,文风趋于收敛。[8] 对于每天阅读的人来说,这种统一性带来了细微而确实的影响:阅览一段时间后,感觉一切似乎都是同一个声音的作品。

所谓的“检索崩溃”研究描述了一种两阶段风险:首先,搜索结果被大量人工智能生成的内容所充斥;随后,这些内容进入检索系统及RAG流程中,被反复引用,视之为中性基础。[1][3] 作者的测试显示,搜索引擎优化池中67%的“污染”率导致展示内容中超过80%的“污染”。[1][3] 简单来说,只要达到一定临界量,系统就会几乎总是看到自己生成的内容。

利用人工智能加速生产的出版商和网站,追求流量、效率和利润;搜索系统追求覆盖率、新鲜度和相关性;基础模型则需要大量数据维持竞争力。[5][8][11] 结果是一场竞赛,每个人都有理性的理由扩大产量,却无强烈激励减速并保护信息来源多样性。 于是,战术优势转变为结构性脆弱。

有关人工智能内容在结果中出现情况的分析显示更复杂的图景:在多个环境下,搜索结果和生成系统中的引用主体仍然是人类内容。[6][11] Google也在向站点所有者强调独特且不可替代的内容,并推出诸如“首选来源”和“高度引用”徽章的工具以突出原创来源。[4][7] 这并不是问题的终结,但表明了竞争也在排名界面和优先级的层面展开。

目前最难确认的是机器何时开始系统性地自我复制和滋养。 现有资源显示了趋同的信号,但尚无明确的断裂量化。[1][5][8][11] 所以,正确的问题不是‘网络上有多少人工智能内容’,而是‘多少人工智能内容被纳入了搜索结果、摘要、数据集和随后被其他系统使用的回答中’。 这就是为何简单的量的增长可能导致质的损失。

文化层面也应受到重视,因为公众往往将问题简化为好文本与坏文本之争。 如果用户减少点击原创来源,更多依赖合成回答,且轻易接受‘足够可信’的内容,系统则奖励最易复制的内容。[4][6][7] 消费者采纳技术往往不同于企业预期;在此,快速访问可能战胜了复杂查找。

‘死网’概念如今被某些研究作为隐喻,用以描述一个自动生成内容日益增长、人类与合成内容界限逐渐模糊的网络。[9][10] 但这一隐喻有其界限:网络并未消失,而是在以新的方式分层,出现丰富区、噪声区,以及原创内容依然强势的区块。 将此三者一体看待,更加诚实且有助于理解数字世界的未来。