Systems & Infrastructure Writer

Penarikan paksa Anthropic terhadap Fable 5 dan Mythos 5 bukan sekadar gangguan produk biasa.[1] Ini adalah contoh kecil tapi tajam tentang bagaimana AI terdepan kini diatur: melalui klaim keamanan, tekanan publik, dan ketika itu gagal, melalui intervensi pemerintah. Masalah langsungnya adalah dugaan jailbreak.[1] Masalah yang lebih besar lebih sederhana tapi juga lebih sulit. Jika sebuah model dapat dibatasi setelah fakta karena bisa disalahgunakan, apa sebenarnya yang dianggap cukup aman untuk diluncurkan sejak awal?[1]

Pemerintah AS mewajibkan Anthropic untuk menarik dua model terbarunya, dengan alasan kekhawatiran keamanan nasional setelah peneliti Amazon diduga menemukan cara melewati pengaman Fable 5.[1] Anthropic kemudian mengatakan pola jailbreak yang sama tidak unik pada sistemnya dan ada di model lain juga.[1] Ini penting karena mengubah argumen dari 'model ini punya celah' menjadi 'kelas model ini rentan dengan cara yang vendor tidak ingin bicarakan terlalu lantang.'

Jailbreak bukan bug dalam arti perangkat lunak pada umumnya. Itu tanda bahwa lapisan kebijakan model bisa dilewati lewat teknik prompt, manipulasi konteks, atau trik adversarial lain. Ini adalah mode kegagalan yang sudah dikenal dalam model dasar. Bagian tidak nyaman adalah vendor bisa benar soal risiko tapi tetap kalah dalam argumen kebijakan. Jika sistem bisa dipaksa mengeluarkan output yang tidak aman, pertanyaannya adalah siapa yang menanggung risiko: perusahaan, pelanggan, atau publik. Dalam praktiknya, biasanya pemerintah yang menjawab pertanyaan itu untuk semua pihak.

Ada juga sudut pandang bisnis di sini, dan itu tidak menguntungkan. Kontrol keamanan menjadi bagian dari cerita produk bagi setiap vendor model utama. Mereka juga bagian dari cerita pengadaan untuk perusahaan dan pembeli pemerintah. Begitu sebuah model ditarik karena alasan keamanan nasional, pasar mendengar dua pesan sekaligus: model tersebut cukup serius untuk diperhatikan, dan langkah pengaman tidak cukup untuk mencegah kontroversi. Ini bisa berdampak dua arah. Bisa merusak kepercayaan. Bisa juga membuat model terasa lebih penting dibanding rilis biasa yang tidak diatur.

Para peneliti keamanan siber menandatangani surat terbuka yang menyatakan langkah pemerintah berbahaya.[2][3] Di satu sisi ada peneliti yang memperingatkan bahwa respons pemerintah berbahaya. Di sisi lain ada perusahaan yang mengatakan kelemahannya tidak unik. Keduanya bisa benar. Peneliti sering keberatan ketika kebijakan bergerak lebih cepat dari bukti teknis. Regulator cenderung bertindak karena tidak ingin menunggu hasil analisis yang lebih bersih. Jurang antara kedua insting inilah tempat tata kelola AI kini berada. Industri ingin aturan yang konsisten. Negara ingin diskresi. Keduanya kurang baik dalam mengakui berapa banyak asumsi yang masih ada.

Yang belum sepenuhnya terverifikasi adalah skala eksposur sebenarnya. Sumber-sumber menyebut peneliti diduga menemukan cara untuk melewati pengaman Fable 5, tapi belum ada bukti yang menunjukkan apakah bypass itu praktis di deployment nyata atau lebih demonstrasi laboratorium.[1] Apakah bypass itu praktis dalam penggunaan nyata, atau lebih sebagai demonstrasi di laboratorium? Apakah keprihatinannya pada jalur penyalahgunaan langsung, atau implikasi kegagalan itu untuk kelas model yang lebih luas? Ini bukan detail kecil. Ini mengubah apakah ini kasus remedi sempit atau sinyal bahwa pengaman saat ini hanyalah bentuk sandiwara. Bukti yang bisa mengubah pemahaman ini adalah rantai eksploitasi yang diungkap, skenario kerugian yang jelas, atau penjelasan teknis mengapa jailbreak tidak bisa digeneralisasi.

Waktu juga penting. Menarik model setelah peluncuran itu mahal, tapi membiarkan model yang meragukan beredar lebih buruk jika kasus penggunaannya melibatkan data sensitif, penegakan hukum, atau penelitian dual-use. Ini adalah kompromi yang terus dicoba dihaluskan vendor model terdepan dengan bahasa kebijakan. Kenyataannya, kontrol akses adalah sebagian teknis, sebagian legal, dan sebagian reputasi. Ketika satu lapisan gagal, lapisan lainlah yang melakukan pekerjaan sebenarnya. Itulah sebabnya insiden ini tidak hanya soal trik prompt. Ini soal tata kelola yang dibangun di atas sistem yang masih belum tahu cara mengawasi dirinya sendiri.

Ada masalah struktural yang lebih luas di sini. Semakin penting sebuah model, semakin sikap keamanannya berhenti menjadi masalah teknik murni dan mulai menjadi urusan diplomatik. Perusahaan ingin membuktikan kompetensi. Pemerintah ingin menunjukkan kehati-hatian. Peneliti keamanan ingin menunjukkan bahwa kontrol itu rapuh. Pengguna umumnya hanya ingin model itu berfungsi tanpa menjadi studi kasus kebijakan. Insentif-insentif itu tidak sejajar dengan rapi, dan jarang menghasilkan pesan yang jujur. Setiap pihak lebih suka narasi yang membuat penilaian mereka terlihat tak terhindarkan.

Perselisihan Anthropic juga berpusat pada apakah kelas jailbreak serupa bisa terjadi di pasar terdepan secara umum, karena perusahaan mengatakan kelemahan serupa ada di model lain.[1] Anthropic juga berada di posisi sulit karena cerita ini bukan hanya soal satu keluarga model. Ini soal apakah kelas jailbreak yang sama bisa direproduksi di pasar terdepan. Jika benar, maka drama perusahaan itu kurang penting dibanding fakta bahwa keamanan model tetap menjadi kelemahan bersama. Jika tidak, pemerintah mungkin telah bertindak berdasarkan interpretasi terlalu luas atas satu kegagalan. Bagaimanapun juga, beban sekarang ada pada siapa saja yang menjual keamanan model untuk menjelaskan apa sebenarnya yang diuji, dan apa yang tidak. Klaim yang mencolok itu murah. Ketahanan terhadap serangan tidak demikian.