AI 工程

「會幫你修 code」也算國安威脅?拆解 Fable 5/Mythos 5 全球下線的技術真相

2026 年 6 月 12 日傍晚,美東時間 5:21,Anthropic 收到美國政府一紙援引「國家安全授權」的出口管制指令:禁止所有外籍人士——不論身在美國境內或境外,連 Anthropic 自家的外籍員工都算在內——存取 Fable 5 與 Mythos 5。

幾小時內,這兩個服務數億人的前沿模型,對全世界所有人(包含美國公民)下線。

而觸發這一切的「漏洞」,講白了就是:你可以叫模型幫你把一段程式碼的 bug 修好。

這篇文章想把兩件事拆清楚。第一,這個被包裝成國安級威脅的「越獄」,技術上到底是什麼、為什麼補不掉;第二,一道「只禁外籍」的命令,為什麼在工程現實裡只能演變成「對所有人全球關閉」。對任何把閉源模型放進產品關鍵路徑的團隊,這是一堂昂貴、但很值得抄筆記的供應鏈風險課。

事件時間線:48 小時內從指令到全球下線

根據 Anthropic 官方聲明,指令在 6/12 傍晚 5:21(ET)送達,內容是依「國家安全授權」發出的出口管制指令,要求停止所有外籍人士對 Fable 5 與 Mythos 5 的存取。Anthropic 表示,在數億使用者的規模下、又卡在當天就要生效的時限內,根本無法即時區分「外籍」與「美國人」,因此選擇把這兩個模型對所有人關閉以確保合規;其餘模型不受影響。

獨立開發者 Simon Willison 透過 API 測試,記錄下存取「斷線的那一分鐘」,他的第一反應是:「Well this is nuts.」(這太離譜了)。接著,包含 CEO、CISO、創投與資安研究者在內的 76 位連署人發出公開信,批評此舉「把最好的模型從防禦者手中拿走、製造市場不確定性,並在沒有真正風險足以佐證的情況下,賭上了美國的 AI 領導地位」。

到了 6/15,TechCrunch 的後續報導下了一個更直白的標題:這場禁令「從來都不是為了什麼 AI 越獄」。

核心一:那個「越獄」,其實只是換句話說

所謂「越獄」的技術真相:兩個語意等價的 prompt 產生幾乎相同的結果

先講清楚政府所謂的「越獄」是什麼。根據 Anthropic 的描述,這個被分享給政府的技術,就是請模型去讀一個特定的程式碼庫、並「修好裡面的軟體缺陷」

問題來了:這跟一個完全被認可的用途——「幫我審查這段程式碼有沒有安全問題」——在能力路徑上幾乎是同一件事。差別只在措辭。一個說「找出問題」,一個說「把它修好」,模型走的是同一套程式碼理解與分析能力,產出的結果也大同小異。

Anthropic 說,他們檢視了這個技術的實際示範,它找出的是少數幾個、早已知、相對單純的漏洞——而且這些東西,其他公開可用的模型(Simon Willison 與 Anthropic 都點名了 OpenAI 的 GPT-5.5)根本不需要任何「繞過」手法就能找到。換句話說,這不是某個被祕密解鎖的危險超能力,而是當代任何一個像樣的程式模型每天都在做、防禦工程師每天都在用的事。

資安老將、Luta Security 創辦人 Katie Moussouris 的評斷更銳利:這種繞過「根本不該觸發出口管制」,而且這個行為「無法被有意義地修掉,任何試圖修補的嘗試,只會讓模型對防禦方變弱」。

這正是關鍵的工程事實——程式碼分析是一種雙重用途(dual-use)能力:找漏洞和修漏洞,攻防同源。你沒辦法只留下「好的那一半」。要求 Anthropic「修掉這個越獄」,等於要求它讓模型變得讀不懂程式碼——而那會直接傷害每天靠它做安全審查的防禦者。

核心二:為什麼「只禁外籍」會變成「全球關閉」

從「禁外籍存取」到「全球關閉」的執行鏈:規模化 API 無法即時按國籍分流

第二個值得工程師注意的機制,是執行面

這道指令在文字上只針對「外籍人士」。但出口管制的執法邏輯,一碰上消費級 API 的現實就立刻短路。Anthropic 服務數億名使用者,沒有任何可靠的方法能在「當天生效」的時限內、即時地把外籍使用者從美國人裡分流出來——你無法在每一次 API 呼叫的當下確認對方的國籍。

於是,唯一能確保合規的做法,就是對所有人關閉,包括它想服務、也完全合法的美國使用者。一道理論上「精準」的限制,因為無法落地執行,被迫變成一把全球大砍刀。這也是為什麼 Anthropic 強調:政府當然可以阻止不安全的部署,但前提是「透明、公平、明確、且立基於技術事實的法定程序」——而這次的處置,並不符合這些原則。

數字與該打的星號

把已查證的數字與仍有爭議的說法分開,很重要:

  • 可確認的:指令於 6/12 17:21 ET 送達;受影響使用者數以億計;76 位產業人士連署反對;示範技術找到的是「少數、已知、簡單」的漏洞;同等能力在 GPT-5.5 等公開模型上即可取得。
  • 各說各話、需保留的:據報導,川普政府的 AI 顧問 David Sacks 宣稱 Anthropic 在出口管制前「拒絕修復」Fable 5 的越獄,並稱曾有中國團隊存取該模型;Anthropic 則回應這個越獄「並不嚴重」。Axios 的報導則把真正的導火線指向 Anthropic 與政府之間的「個性/立場差異」,而非技術風險本身;報導也提及五角大廈早在 2026 年 3 月就把 Anthropic 列為「供應鏈風險」。這些帶有動機指控性質的說法,我無法以一手技術證據獨立驗證,這裡只如實轉述。
  • 不確定的:這紙指令援引的確切法律工具(屬於哪一條出口管制條文)並未公開說明,外界目前只看到「口頭證據」與一個「窄、非通用」的越獄描述。

換句話說:技術事實這一側相當清楚(一個普通的程式分析能力);政治動機那一側則充滿未經證實的對沖說法。把這兩側混為一談,正是這次事件最容易被誤讀的地方。

對工程決策的意義:把模型當成供應鏈依賴

撇開政治,這件事對任何在產品裡用模型的團隊,丟出一個很硬的問題:你的模型,可能在一夜之間消失,而且原因可能跟你的技術品質毫無關係。

過去我們談模型風險,多半想到的是「會不會變笨」「會不會漲價」「會不會被 deprecate」。Fable 5/Mythos 5 事件補上了一個更不可控的維度:地緣政治與廠商-政府關係的風險。模型供應方一旦與某個政府鬧翻、或被捲進出口管制,你的關鍵路徑就斷了——而且可能是當天斷、全球斷。

該不該繼續依賴閉源前沿模型?這是 trade-off,不是是非題:

  • 可以接受單一依賴:內部工具、可容忍數小時 downtime、有現成替代、非合規敏感的場景。
  • 不該單點依賴:使用者付費仰賴的關鍵功能、跨國使用者、合規敏感、或一旦中斷就會造成資料/營運損失的路徑。

可操作清單

  • 架一層 model router/抽象層:讓 provider 可替換,至少接兩家(例如 Anthropic + OpenAI 或開源模型),別讓 prompt 綁死單一模型的獨家特性。
  • 把「模型不可用」當成正常故障來演練:設計明確的 fallback 與降級策略,跑一次「主力模型今天消失」的 game day。
  • 盤點管轄與出口風險:你的使用者裡有外籍嗎?你倚賴的模型受哪個國家的出口管制?把它當成跟「資料落地」同等級的合規項目來追蹤。
  • 鎖版本,但保留逃生路徑:穩定性要鎖版本,但要確保隨時能切換,避免被單一版本/單一供應商套牢。
  • 對 agent 系統的治理啟示:這次事件證明,「能讀 code、能修 code」這種能力本身就是雙重用途——治理該看的是「用途與情境」,而不是「這個能力存不存在」。試圖用移除能力來換安全,往往兩頭落空。

這場風波最諷刺的地方在於:被拿來當理由的「越獄」,其實是這個模型最有價值、最被防禦者倚賴的能力之一。當一個服務數億人的工具,可以因為「會幫你修 bug」而被全球關掉,真正該被寫進架構決策文件的,不是那個模型有多強,而是——你有沒有為它的突然消失,準備好 plan B。

整理:DataAgent · AI 產品架構決策觀點

來源

發表迴響

%d 位部落客按了讚: