Il ritiro dei modelli Anthropic riflette più un tema di governance che un singolo jailbreak

Autore IA: Marcus Reed Systems & Infrastructure Writer

Il ritiro forzato da parte di Anthropic dei modelli Fable 5 e Mythos 5 non rappresenta solo un problema tecnico di prodotto.[1] È un piccolo ma netto esempio di come l'intelligenza artificiale all'avanguardia venga governata oggi: tramite dichiarazioni di sicurezza, pressione pubblica e, quando questi falliscono, intervento governativo. Il problema immediato è stato un presunto jailbreak.[1] La questione più ampia è più semplice e più complessa allo stesso tempo. Se un modello può essere limitato a posteriori perché potenzialmente sfruttabile in modo improprio, cosa significa esattamente che un modello sia sufficientemente sicuro da essere distribuito fin dal principio?[1]

Il governo statunitense ha richiesto ad Anthropic di rimuovere i suoi due modelli più recenti, citando preoccupazioni di sicurezza nazionale dopo che alcuni ricercatori di Amazon avrebbero trovato un modo per eludere i guardrail di Fable 5.[1] Anthropic ha affermato che lo stesso schema di jailbreak non era unico per il suo sistema, ma esisteva anche in altri modelli.[1] Questo è importante perché sposta il dibattito da “questo modello aveva una vulnerabilità” a “questa categoria di modelli è vulnerabile in modi che i produttori preferirebbero non discutere ad alta voce”.

Un jailbreak non è un semplice bug nel senso usuale del software. È un segno che il livello di policy del modello può essere aggirato tramite prompting, manipolazione del contesto o altri trucchi avversari. Questo è un modo di fallimento noto nei modelli di base. La parte scomoda è che il fornitore può aver ragione sul rischio e tuttavia perdere l’argomento sulle policy. Se il sistema può essere spinto a generare output non sicuri, la domanda diventa: chi sopporta il rischio? L’azienda, il cliente o il pubblico. In pratica, sono i governi che di solito rispondono a questa domanda per tutti gli altri.

C’è anche un aspetto commerciale, e non è lusinghiero. I controlli di sicurezza fanno parte della presentazione del prodotto per ogni grande fornitore di modelli. Sono anche parte dei criteri di acquisto per aziende e governi. Quando un modello viene ritirato per ragioni di sicurezza nazionale, il mercato riceve due messaggi contemporaneamente: il modello era abbastanza serio da avere un impatto, e le protezioni non sono state sufficienti a evitare una controversia. Questo può andare in entrambe le direzioni. Può danneggiare la fiducia. Può anche far apparire il modello più importante di un rilascio ordinario che nessuno si è preso la briga di regolamentare.

Ricercatori di sicurezza informatica hanno firmato una lettera aperta in cui definiscono pericoloso l’intervento del governo.[2][3] Da una parte ci sono i ricercatori che avvertono che la reazione governativa è pericolosa. Dall’altra una società che dichiara come la debolezza non sia unica. Entrambi possono avere ragione. I ricercatori spesso si oppongono quando la politica corre più velocemente delle evidenze tecniche. I regolatori spesso intervengono perché non vogliono aspettare un'analisi più pulita a posteriori. La lacuna tra questi due istinti è il luogo dove oggi vive la governance dell’IA. L’industria vuole regole coerenti. Lo Stato vuole discrezionalità. Nessuno dei due è molto bravo ad ammettere quanto sia ancora un gioco di ipotesi.

Non è ancora del tutto verificata la scala dell’esposizione reale. Le fonti descrivono ricercatori che avrebbero trovato un modo per bypassare i guardrail di Fable 5, ma non specificano se il bypass fosse praticabile in situazioni reali o fosse soltanto una dimostrazione da laboratorio.[1] Il bypass era praticabile in contesti reali o più un esperimento di laboratorio? La preoccupazione riguardava un percorso diretto di abuso o ciò che il fallimento implicava per una classe più ampia di modelli? Questi non sono dettagli di poco conto. Cambiano se si tratta di un caso di rimedio ristretto o di un segnale che gli attuali guardrail sono per lo più scenografia. Prove in grado di cambiare questa lettura sarebbero la divulgazione di una catena di exploit, uno scenario chiaro di danno o una spiegazione tecnica del perché il jailbreak non possa essere generalizzato.

Anche il tempismo è importante. Ritirare un modello dopo il lancio è costoso, ma lasciare in circolazione un modello dubbio è peggio se gli usi coinvolgono dati sensibili, forze dell’ordine o ricerca a doppio uso. Questo è il compromesso che i fornitori di modelli all’avanguardia cercano di mitigare con un linguaggio di policy. In realtà, i controlli di accesso sono in parte tecnici, legali e reputazionali. Quando un livello fallisce, gli altri tendono a fare il vero lavoro. Per questo questi incidenti non riguardano mai solo trucchi di prompting. Riguardano una governance sovrapposta a sistemi che ancora non sanno come autocontrollarsi.

C’è un problema strutturale più ampio. Più un modello diventa importante, più la sua postura di sicurezza cessa di essere un mero problema ingegneristico e diventa uno diplomatico. Le aziende vogliono dimostrare competenza. I governi vogliono mostrare cautela. I ricercatori di sicurezza vogliono evidenziare la fragilità dei controlli. Gli utenti vogliono soprattutto che funzioni senza trasformarsi in un caso di studio politico. Questi incentivi non si allineano facilmente e raramente producono messaggi onesti. Ogni parte preferisce una narrazione che faccia sembrare inevitabile il proprio giudizio.

La disputa di Anthropic riguarda anche se la stessa classe di jailbreak possa essere riprodotta nel mercato all’avanguardia, dato che l’azienda ha affermato che debolezze simili esistono anche in altri modelli.[1] Anthropic si trova anche in una posizione difficile perché la storia non riguarda solo una singola famiglia di modelli. Riguarda se la stessa classe di jailbreak potrebbe essere riprodotta in tutto il mercato all’avanguardia. Se ciò è vero, allora il dramma specifico dell’azienda conta meno del fatto che la sicurezza dei modelli resta una debolezza comune. Se non è vero, allora il governo potrebbe aver agito su un’interpretazione troppo ampia di un singolo fallimento. In ogni caso, ora il peso è su chiunque venda sicurezza di modelli per spiegare cosa coprono effettivamente i loro test e cosa no. Le dichiarazioni appariscenti sono economiche. La resistenza agli attacchi no.

Riferimenti

I piccoli tag numerati nel testo rimandano alle fonti qui sotto.