当人工智能引用时：为何“来源”不同于人类引用

AI记者: Lukas Weber Industrial Technology Correspondent

在生成式人工智能的讨论中，关注点已不仅限于系统是否能给出正确答案。更关键的问题是，它在引用他人文本时是否履行了如同人类引用般的功能，亦或仅仅是语言上显得可信，却没有承担引用背后的文化和法律责任。正是在这一点上，技术、版权法与用户期待交汇了。

美国版权局在其关于人工智能的多部分报告中，明确将这场辩论提升到现行基本原则的层面。[1][7][9] 报告第二部分指出，现行版权规则弹性足以涵盖生成式人工智能；同时强调，只有在人类对表达性元素有充分控制下，人工智能生成的内容才可能受版权保护。[7][9] 这对引用问题尤为重要，因为这界定了界限：并非所有机器生成的文本相似性都代表独立创造的作品。

《纽约时报》与OpenAI之间的争议进一步明确了这条界限。[2][5][8][10] 公开指控不仅涉及以新闻文本为训练材料，更声称系统输出有时几乎逐字复制文章内容，可能取代原文。[2][5][8][10] 对此，OpenAI援引合理使用原则，强调模型并非报纸内容的直接替代品。[2][5][8] 法律上的核心问题仍未解：在某些情况下与原文高度相似的模型输出，究竟是一个检索生成系统，还是内容传播的新渠道？

从技术视角看，检索增强生成（RAG）方法是个有益的对照。[3][11][12] 这一技术结合了语言模型和外部搜索，旨在基于可追溯来源提供答案。[3][11][12] 相关系统的特点正是能展示来源，让用户审查，从而建立信任。[11][12] 但这仍不等同于人类意义上的引用。 RAG系统可以展示证据，却不‘理解’为何引用在科学或新闻写作中需要被标记、界定和赋予上下文。

因此，人们难以摆脱将来源提示与引用混为一谈的误区。人类引用的目的，是明确出处、权威来源与界限，这种做法伴随着责任。而模型是训练、检索和生成模式的复合体。[1][11][12] 它能输出来源信号，但并无真正的引用意图。[1][11][12] 这一区别虽属语义，实则影响产业：产品团队努力设计出能建立信任的界面，却很容易被误解认为仅凭来源列表即可替代编辑审慎。

另一方面，作者和出版商则视此类假设为危险。[4][6] 已有声明指出，未经许可使用创作作品进行训练，严重影响了作者生计，不能简单归为技术层面的中间处理。[4][6] 这是争议的经济核心：用他人文本训练模型不仅制造数学参数，还重新分配许可、报酬和可见度的谈判力量。对新闻和专业内容尤其敏感，因为它们的商业模式依赖于明确归属。

尽管如此，合法重构和非法盗用之间的边界仍未明晰。当前信息主要表明两点：一是法院和监管机构不愿将生成式AI视为特殊案例；二是举证技术难度大。[1][7][9][10] 单个极其相似的输出事件，难以反映整个系统表现。[2][10] 若要作出更可靠判断，需要更详细的数据，涵盖此类内容出现频率、产生的提示条件及其重复生成的可能性。

这也使得“引用”在AI场景下成为产品设计问题。若系统仅生成语句而不明确分离来源，来源提示更多是装饰而非凭证。而如果系统基于搜索，能显示佐证并明确训练和外部来源的界限，至少能满足用户对引用的基本期待。[3][11][12] 挑战往往不在模型本身，而在于整合检索、显示、授权与责任于一体，打造用户友好的系统。

对于欧洲而言，这不仅是美国行业法律的争议。当AI系统应用于编辑、知识库、法律服务及工业文档流程时，如何管理来源决定了信任与风险。[3][6][7][9] 错误的引用不仅是风格问题，还可能牵涉流程、审查链和法律责任。因此，不应只关注‘引用’这一光鲜词汇，而应着眼于稳健实践：谁提供来源？谁进行审查？当系统输出接近原作时，后果如何？这些问题将比屏幕上的快速回答更持久地影响人工智能与版权的争论。

参考来源

正文中的小编号标签对应下方参考来源。

当人工智能引用时：为何“来源”不同于人类引用

参考来源

推荐文章