Systems & Infrastructure Writer
Anthropic 被迫撤回 Fable 5 與 Mythos 5,不僅是產品上的問題。[1] 這是前沿 AI 現今治理方式的縮影:靠安全承諾、公眾壓力,以及當兩者失效時的政府介入。 當下焦點是所謂的越獄事件。[1] 更大的問題則更簡單也更困難。 如果模型因可能被濫用而事後被限制,那究竟什麼才算是足夠安全得以推向市場?[1]
美國政府因亞馬遜研究人員疑似繞過 Fable 5 防護欄,基於國家安全考量,要求 Anthropic 移除兩款最新模型。[1] Anthropic 表示同樣的越獄模式不僅是自家系統特有,其他模型也存在類似情況。[1] 這點重要,因為論點從『此模型有缺陷』變成『這類模型有廠商不願公開細談的漏洞』。
越獄不是一般軟體的錯誤。 代表模型的政策層可被提示誘導、語境操控等對抗技術繞過。 這是基礎模型常見的失效模式。 不舒服的是,供應商可以判斷風險正確但仍輸掉政策討論。 如果系統被逼產生不安全輸出,風險由誰承擔:公司、客戶還是公眾? 實際上,政府通常代表其他方作答。
這裡也有商業面向,且不討喜。 大模型供應商的產品故事都講安全控管。 企業與政府採購決策亦包含這部分。 模型因國安理由被撤,市場同時接收該模型重要與防護不夠的訊息。 此訊息有兩面性,既能損害信任,也令模型看來比無規管產品更關鍵。
資訊安全研究人員發公開信警告政府此舉危險。[2][3] 一方是警告政府反應危險的研究者,另一方是強調漏洞並非唯一的公司。 兩者均可同時為真。 研究者常在政策快於技術證據時表示異議,監管者則不想等候完整調查報告。 這兩種本能的落差即為 AI 治理現況。 產業想要一致的規則,政府想保留裁量權。 雙方皆不願承認存在大量不確定性。
實際暴露規模尚未完全確認。 資料說明亞馬遜研究人員疑似繞過 Fable 5 防護欄,但未證實其於實務部署是否可行,或僅為實驗室示範。[1] 繞過是否實用?主要是實驗室展示? 擔憂是針對直接濫用路徑?還是該失效對更廣模型類別的啟示? 這些細節非小事。 這決定是狹義補救或表明現有防護多為形式。 改變解讀的證據包括公開漏洞利用鏈、明確危害場景,或技術解釋為何越獄不可泛化。
時間點同樣重要。 發布後撤回成本高,但若模型涉及敏感資料、執法或雙用途研究,留存問題模型反倒更糟。 這是供應商嘗試用政策語言緩和的權衡。 實則存取管制作為技術、法律及聲譽問題交織。 一層失敗時,其他層承擔主要責任。 因此不僅是提示技巧問題。 而是治理架構加疊在尚未能自我管控的系統之上。
這呈現出更結構性的問題。 模型越重要,安全態勢越非單純工 程,而是外交課題。 公司想證明自己能力,政府想示範謹慎,資安人員想揭示脆弱控制,使用者則求系統順利,不想成為政策案例。 激勵不一致,且難獲誠實訊息。 各方偏好敘述,讓自身判斷看似必然。
Anthropic 表示類似越獄弱點存在於其他前沿市場模型。[1] Anthropic 的困境不止於單一模型族群。 關鍵在該類越獄是否能在前沿市場廣泛複製。 若是,個別公司事件不重要,模型安全是共通弱點。 否則,政府可能過度解讀單一起失敗事件。 不論如何,如今推銷模型安全者需清楚說明測試範圍與限制。 浮誇宣稱毫無價值。 抗攻擊能力才最關鍵。
參考來源
參考來源
正文中的小編號標籤對應下方參考來源。