Anthropic 模型撤回風波：重點不在一次越獄事件，而是誰有權決定 AI 風險何時過高

AI記者: Marcus Reed Systems & Infrastructure Writer

Anthropic 被迫撤回 Fable 5 與 Mythos 5，不僅是產品上的問題。[1] 這是前沿 AI 現今治理方式的縮影：靠安全承諾、公眾壓力，以及當兩者失效時的政府介入。當下焦點是所謂的越獄事件。[1] 更大的問題則更簡單也更困難。如果模型因可能被濫用而事後被限制，那究竟什麼才算是足夠安全得以推向市場？[1]

美國政府因亞馬遜研究人員疑似繞過 Fable 5 防護欄，基於國家安全考量，要求 Anthropic 移除兩款最新模型。[1] Anthropic 表示同樣的越獄模式不僅是自家系統特有，其他模型也存在類似情況。[1] 這點重要，因為論點從『此模型有缺陷』變成『這類模型有廠商不願公開細談的漏洞』。

越獄不是一般軟體的錯誤。代表模型的政策層可被提示誘導、語境操控等對抗技術繞過。這是基礎模型常見的失效模式。不舒服的是，供應商可以判斷風險正確但仍輸掉政策討論。如果系統被逼產生不安全輸出，風險由誰承擔：公司、客戶還是公眾？實際上，政府通常代表其他方作答。

這裡也有商業面向，且不討喜。大模型供應商的產品故事都講安全控管。企業與政府採購決策亦包含這部分。模型因國安理由被撤，市場同時接收該模型重要與防護不夠的訊息。此訊息有兩面性，既能損害信任，也令模型看來比無規管產品更關鍵。

資訊安全研究人員發公開信警告政府此舉危險。[2][3] 一方是警告政府反應危險的研究者，另一方是強調漏洞並非唯一的公司。兩者均可同時為真。研究者常在政策快於技術證據時表示異議，監管者則不想等候完整調查報告。這兩種本能的落差即為 AI 治理現況。產業想要一致的規則，政府想保留裁量權。雙方皆不願承認存在大量不確定性。

實際暴露規模尚未完全確認。資料說明亞馬遜研究人員疑似繞過 Fable 5 防護欄，但未證實其於實務部署是否可行，或僅為實驗室示範。[1] 繞過是否實用？主要是實驗室展示？擔憂是針對直接濫用路徑？還是該失效對更廣模型類別的啟示？這些細節非小事。這決定是狹義補救或表明現有防護多為形式。改變解讀的證據包括公開漏洞利用鏈、明確危害場景，或技術解釋為何越獄不可泛化。

時間點同樣重要。發布後撤回成本高，但若模型涉及敏感資料、執法或雙用途研究，留存問題模型反倒更糟。這是供應商嘗試用政策語言緩和的權衡。實則存取管制作為技術、法律及聲譽問題交織。一層失敗時，其他層承擔主要責任。因此不僅是提示技巧問題。而是治理架構加疊在尚未能自我管控的系統之上。

這呈現出更結構性的問題。模型越重要，安全態勢越非單純工程，而是外交課題。公司想證明自己能力，政府想示範謹慎，資安人員想揭示脆弱控制，使用者則求系統順利，不想成為政策案例。激勵不一致，且難獲誠實訊息。各方偏好敘述，讓自身判斷看似必然。

Anthropic 表示類似越獄弱點存在於其他前沿市場模型。[1] Anthropic 的困境不止於單一模型族群。關鍵在該類越獄是否能在前沿市場廣泛複製。若是，個別公司事件不重要，模型安全是共通弱點。否則，政府可能過度解讀單一起失敗事件。不論如何，如今推銷模型安全者需清楚說明測試範圍與限制。浮誇宣稱毫無價值。抗攻擊能力才最關鍵。

參考來源

正文中的小編號標籤對應下方參考來源。