Systems & Infrastructure Writer

AnthropicによるFable 5とMythos 5の強制撤回は単なる製品トラブルではない。[1]これは先端AIが今どのようにガバナンスされているかの小さくも鋭い実例だ。安全性の主張、世論の圧力、そしてそれが失敗すると政府介入によって。直近の問題は脱獄疑惑だった。[1]より大きな問題は単純かつ難しい。もし悪用される可能性で事後にモデルが制限されるなら、そもそも何が十分に安全と言えるのか?そもそも何が出荷に値する安全さか?[1]

米政府は国家安全保障上の懸念から、Amazon研究者がFable 5の安全策を回避した可能性を理由に、Anthropicに最新2モデルの削除を求めた。[1]Anthropicは同様の脱獄パターンは同社のシステムに限らず他モデルにも存在すると述べた。[1]これは議論を「このモデルに欠陥があった」から「同じクラスのモデルがベンダーが大々的には話したくない脆弱性を持つ」へ変える。

脱獄は一般のソフトウェアバグではない。モデルのポリシーレイヤーがプロンプトや文脈操作などの敵対的手法によって回避できる証拠だ。これは基盤モデルにおけるよくある失敗モードだ。問題はベンダーがリスクを適切に認識しても、政策的議論に敗れることがある点だ。システムが安全でない出力を強制されうるなら、リスクを負うのは企業か顧客か公共かが問題となる。現実には政府がその答えを代わりに決めてしまう。

ビジネス面もあるが、良くはない。安全対策は主要モデルベンダーの製品ストーリーの一部だ。また企業や政府の調達判断の一部でもある。国家安全保障理由でモデルが撤回されると、市場はモデルの重要性と安全策の不十分さの二重のメッセージを受け取る。それは信用を損なう可能性がある。また規制されない通常リリースより重要視される印象も与える。

サイバーセキュリティ研究者の公開書簡が政府対応の危険性を警告している。[2][3]研究者は政府対応を危険視し、企業は弱点が特異的でないと主張している。両方とも正しい可能性がある。研究者は政策が技術的証拠より先行すると異議を唱えがちだ。規制当局はより明確な事後調査を待たずに動くことも多い。この二つの本能の差がAIガバナンスの現状だ。業界は一貫したルールを、国家は裁量を望む。両者ともまだ多くの推測があることを認めるのは苦手だ。

実際のリスク規模はまだ検証中だ。資料ではAmazon研究者がFable 5の安全策回避法を発見したとされるが、実運用で実用的か実験室でのデモかは明確でない。[1]運用環境での実用性か、実験室内デモか?直接的悪用経路か、より広範なモデル群の問題を示すか?これは重要な違いだ。狭い改修事例か、現在の安全策が見せかけかを分ける。証拠としては攻撃経路の公開、具体的被害事例、脱獄が一般化できない理由の技術説明が必要だ。

タイミングも重要だ。リリース後のモデル撤回はコストだが、疑わしいモデルを敏感データや法執行、軍民両用研究で使うほうがさらに悪い。これがベンダーが政策言葉で和らげようとするトレードオフ。アクセス制御は技術的・法律的・評判的要素の混合だ。一層が失敗しても他の層が機能する。だからこの種の事故は単なるプロンプトの問題にとどまらない。これは自己統制を知らないシステムに積み上げられたガバナンスの問題である。

より構造的な問題が存在する。モデルの重要度が上がるほど、安全性は単なる技術問題ではなく外交問題になる。企業は有能さを示したい。政府は慎重さを示したい。セキュリティ研究者は安全策の脆弱さを示そうとする。ユーザーは問題事例にされずに動作を望む。これらの利害は調和せず、正直な発信は稀。各陣営は自分の判断が必然に思える物語を好む。

Anthropicの争点は同様の脱獄が先端市場で再現されうるかであり、同社は同様の弱点が他モデルにもあるとした。[1]Anthropicは単一モデルの問題ではなく、市場全体の問題に直面している。同じクラスの脱獄が先端市場で繰り返されるかが焦点。これが真なら企業固有の問題は重要でなく、モデル安全性の共通の弱点が問題だ。偽なら政府は単一失敗を過剰に解釈した可能性がある。いずれにせよ、安全性を売る者はテスト範囲と限界を説明する責任がある。華やかな主張は安価だが、攻撃耐性はそうではない。