Systems & Infrastructure Writer

Anthropic被迫撤回Fable 5和Mythos 5并非简单的产品故障。[1] 它是一个虽小却鲜明的案例,展示了前沿AI治理依赖安全声明、公众压力以及在失败时政府介入的模式。 直接的问题是所谓“越狱”事件。[1] 更大的问题则既简单又复杂。 如果模型能因潜在滥用而事后受限,那么最初发货时,究竟什么标准才算安全?[1]

美国政府要求Anthropic撤下两款新模型,理由是亚马逊研究人员据称绕过了Fable 5的安全限制,出于国家安全考虑。[1] Anthropic表示这种越狱模式并非其系统独有,其他模型也存在类似问题。[1] 这意义重大,因为它把论点从“模型有缺陷”,推向“一类模型具有厂商不愿公开讨论的脆弱性”。

越狱不是普通软件意义上的bug。 它意味着模型的策略层可以通过提示、上下文操纵或敌对技巧被绕过。 这是基础模型中的常见失效模式。 尴尬之处在于,厂商可能正确评估风险,却仍然输掉政策辩论。 如果系统能被逼输出不安全内容问题就变成谁承担风险:公司、客户还是公众? 实际上,政府通常替所有人做出该决定。

这里还有商业层面,且不那么好看。 每家主要模型厂商的产品故事里都包含安全控制。 企业和政府采购中也将安全作为重要考量。 模型因国家安全被撤下,市场同时收到两个信号:模型重要、保护措施不足以避免争议。 这影响是双向的。 它可能损害信任。 也可能让模型显得比没有被监管的正常发布更重要。

网络安全研究者公开致信称政府此举危险。[2][3] 一边是担忧政府反应危险的研究者,另一边是称漏洞非唯一的公司。 两者均可能为真。 研究者往往反对政策走得比技术证据早。 监管者常因不愿等待更干净的事后分析而提前行动。 AI治理正处于这两种本能的张力之中。 业界期望统一规则,国家则想保留裁量权。 双方均不善坦承仍有多少猜测成分。

实际暴露的规模尚未完全确认。 目前资料中,绕过Fable 5保护的研究发现是否实用于生产环境,还是仅实验室演示,尚未清楚。[1] 绕过是否实用于实际部署? 担忧是对直接滥用途径,还是对广泛模型类别的潜在风险? 这些都非小事。 它们决定这是局部修补还是警示现有保护大多形式主义。 若公开利用链、明确伤害场景或技术解释越狱为何难以泛化,或能改变解读。

时机同样关键。 模型发布后撤回代价高,但若存疑模型涉及敏感数据、执法或双用途研究则更糟。 前沿模型厂商持续用政策语言缓和这种权衡。 现实中,访问控制技术、法律和声誉共存。 单层失效时,其他层发挥作用。 因此这些事件不仅关于提示技巧。 而是治理加诸仍不自律系统之上。

存在更广泛的结构性问题。 模型越重要,其安全姿态从工程问题变成外交议题。 企业想展现能力。 政府想表现审慎。 安全研究者想揭示控制脆弱。 用户只愿产品正常运行,不愿沦为政策案例。 这些动机不一致,鲜有坦诚沟通。 各方偏好构建对己方决定必然的叙事。

Anthropic争议还涉及是否同类越狱可在前沿市场复制,公司称其他模型也有类似弱点。[1] Anthropic不仅面对单一模型家族的问题。 争议关系到同类越狱是否能跨市场重现。 若属实,则个别公司戏剧性不及共同的模型安全薄弱。 若不属实,政府可能误读单一失败。 无论如何,模型安全供应方必须说明检测范围及盲点。 华而不实的承诺不值钱, 真正的抵抗攻击能力才珍贵。