Anthropic下架模型背后：谁来决定AI何时风险过高？

AI记者: Marcus Reed Systems & Infrastructure Writer

Anthropic被迫撤回Fable 5和Mythos 5并非简单的产品故障。[1] 它是一个虽小却鲜明的案例，展示了前沿AI治理依赖安全声明、公众压力以及在失败时政府介入的模式。直接的问题是所谓“越狱”事件。[1] 更大的问题则既简单又复杂。如果模型能因潜在滥用而事后受限，那么最初发货时，究竟什么标准才算安全？[1]

美国政府要求Anthropic撤下两款新模型，理由是亚马逊研究人员据称绕过了Fable 5的安全限制，出于国家安全考虑。[1] Anthropic表示这种越狱模式并非其系统独有，其他模型也存在类似问题。[1] 这意义重大，因为它把论点从“模型有缺陷”，推向“一类模型具有厂商不愿公开讨论的脆弱性”。

越狱不是普通软件意义上的bug。它意味着模型的策略层可以通过提示、上下文操纵或敌对技巧被绕过。这是基础模型中的常见失效模式。尴尬之处在于，厂商可能正确评估风险，却仍然输掉政策辩论。如果系统能被逼输出不安全内容问题就变成谁承担风险：公司、客户还是公众？实际上，政府通常替所有人做出该决定。

这里还有商业层面，且不那么好看。每家主要模型厂商的产品故事里都包含安全控制。企业和政府采购中也将安全作为重要考量。模型因国家安全被撤下，市场同时收到两个信号：模型重要、保护措施不足以避免争议。这影响是双向的。它可能损害信任。也可能让模型显得比没有被监管的正常发布更重要。

网络安全研究者公开致信称政府此举危险。[2][3] 一边是担忧政府反应危险的研究者，另一边是称漏洞非唯一的公司。两者均可能为真。研究者往往反对政策走得比技术证据早。监管者常因不愿等待更干净的事后分析而提前行动。 AI治理正处于这两种本能的张力之中。业界期望统一规则，国家则想保留裁量权。双方均不善坦承仍有多少猜测成分。

实际暴露的规模尚未完全确认。目前资料中，绕过Fable 5保护的研究发现是否实用于生产环境，还是仅实验室演示，尚未清楚。[1] 绕过是否实用于实际部署？担忧是对直接滥用途径，还是对广泛模型类别的潜在风险？这些都非小事。它们决定这是局部修补还是警示现有保护大多形式主义。若公开利用链、明确伤害场景或技术解释越狱为何难以泛化，或能改变解读。

时机同样关键。模型发布后撤回代价高，但若存疑模型涉及敏感数据、执法或双用途研究则更糟。前沿模型厂商持续用政策语言缓和这种权衡。现实中，访问控制技术、法律和声誉共存。单层失效时，其他层发挥作用。因此这些事件不仅关于提示技巧。而是治理加诸仍不自律系统之上。

存在更广泛的结构性问题。模型越重要，其安全姿态从工程问题变成外交议题。企业想展现能力。政府想表现审慎。安全研究者想揭示控制脆弱。用户只愿产品正常运行，不愿沦为政策案例。这些动机不一致，鲜有坦诚沟通。各方偏好构建对己方决定必然的叙事。

Anthropic争议还涉及是否同类越狱可在前沿市场复制，公司称其他模型也有类似弱点。[1] Anthropic不仅面对单一模型家族的问题。争议关系到同类越狱是否能跨市场重现。若属实，则个别公司戏剧性不及共同的模型安全薄弱。若不属实，政府可能误读单一失败。无论如何，模型安全供应方必须说明检测范围及盲点。华而不实的承诺不值钱，真正的抵抗攻击能力才珍贵。

参考来源

正文中的小编号标签对应下方参考来源。