AI 工程

阿里巴巴 Qwen-AgentWorld:不訓練 agent 行動,改訓練模型「預測環境」

「一個從來沒有被當成 agent 訓練過的模型,卻在七個 agent benchmark 上全面變強。」這句話聽起來像標題黨,但它確實是阿里巴巴 Qwen 團隊在 Qwen-AgentWorld 這篇論文裡回報的結果。對任何正在燒錢做 agent 訓練的團隊來說,這個發現值得停下來想清楚:如果讓 agent「更會行動」的方法,是先讓模型「更會預測環境」,那我們現在投在真實環境互動上的成本,是不是放錯了地方?

這篇文章把這套方法拆開講清楚——它到底訓練了什麼、為什麼會有效、數字有多少水分、以及什麼情境下你該認真考慮它。

一、為什麼這件事值得關注

過去兩年,提升 agent 能力的主流路線是「在真實環境裡做強化學習」:給模型一個瀏覽器、一個 terminal、一支 API,讓它反覆嘗試、用結果當獎勵訊號去調策略。這條路有效,但代價很重:

  • :每一步動作都要真的去執行,呼叫真實 API、開真實沙箱、等真實回應。
  • 不可控:環境會變、會壞、會有 rate limit,同一個任務跑兩次結果可能不同。
  • 不可重現:環境狀態難以版本化,實驗很難精確復現。
  • 覆蓋有限:你只能在自己接得到的環境裡訓練,長尾場景幾乎碰不到。

Qwen-AgentWorld 換了一個角度:與其拼命訓練「會行動的 agent」,不如先訓練一個「會預測環境會怎麼變」的模型。這個轉向,正是 VentureBeat 用「這個模型從沒被當成 agent 訓練過」當標題的原因。

二、背景:什麼是「世界模型」,以及它要解決什麼

「世界模型(world model)」這個概念並不新——它指的是一個能根據當前觀察與動作,預測環境接下來會如何變化的模型,是推理與規劃的核心認知機制。在機器人與遊戲領域,世界模型通常是預測下一幀影像或下一個狀態向量。

Qwen-AgentWorld 的關鍵動作,是把世界模型搬到純語言的 agent 環境裡,做成「語言世界模型(Language World Model, LWM)」。它的研究問題很直接:一個 agent 互動環境(terminal、瀏覽器、手機、API)能不能整個被一個語言模型「演」出來?如果可以,那這個模擬器就能取代昂貴的真實環境,去大規模、可控地訓練 agent。

阿里巴巴一次釋出兩個尺寸(皆為 MoE 架構,Apache 2.0 授權):

  • Qwen-AgentWorld-35B-A3B:總參數 35B、啟用 3B、256K context。
  • Qwen-AgentWorld-397B-A17B:總參數 397B、啟用 17B。

它涵蓋七個領域於單一架構之下:MCP、Search、Terminal、SWE(軟體工程)、Android、Web、OS

三、運作原理(核心)

角色對調:讓模型去「當環境」,而不是「當玩家」

這是整篇論文最該記住的一句話。在標準 agent 迴圈裡有兩個角色:

  • Agent:看到觀察 oₜ,輸出動作 aₜ。傳統 RL 訓練的就是這個策略 π(a|history)
  • Environment:收到動作 aₜ,回傳下一個觀察 oₜ₊₁

Qwen-AgentWorld 不去學左邊的策略,而是去學右邊的環境轉移。論文把模型定義為一個「條件式文本生成器,給定互動歷史與 agent 的當前動作,預測下一個環境觀察」——也就是學 P(oₜ₊₁|history, aₜ)。換句話說,這個模型被訓練成「環境本人」,而不是在環境裡行動的玩家。

不訓練 agent 怎麼行動,改訓練模型預測環境會怎麼變的角色對調圖

為什麼用「長鏈推理」來預測環境

預測「下一個 observation」聽起來像填空,但真實環境的回應往往要經過一連串隱含計算:你打了一個 git commit,environment 要先判斷工作目錄狀態、檢查有沒有 staged 變更、再決定輸出什麼。Qwen-AgentWorld 把這個過程做成長鏈推理(long chain-of-thought):模型先「想」這個動作在當前狀態下會觸發什麼,再生成最終的觀察文本。這讓它預測的不是表面字串,而是有內在一致性的環境行為。

三階段訓練管線

論文回報模型是用超過 1,000 萬條真實環境互動軌跡、跨七個領域,經由三階段管線訓練而成:

  1. CPT(持續預訓練):注入通用的世界建模能力,讓模型先具備「環境長什麼樣」的底層知識。
  2. SFT(監督微調):啟動 next-state-prediction 的推理能力,教模型用長鏈推理去預測下一個狀態。
  3. RL(強化學習):銳化模擬保真度,讓預測出來的環境更貼近真實。

值得注意的是,這三個階段全程都在做世界建模,模型自始至終沒有被訓練去「採取行動、呼叫工具」。

怎麼衡量「環境演得像不像」:AgentWorldBench

要當模擬器,光會生成還不夠,得演得夠真。阿里巴巴同時釋出評測集 AgentWorldBench:取 5 個前沿模型在 9 個既有 benchmark 上的真實互動軌跡,丟進真實環境執行,再抽取成環境軌跡——刻意做成分布外(out-of-distribution)評測,避免模型只是背題。評分用五個維度的 rubric(各 1–5 分):Format(格式)、Factuality(事實性)、Consistency(一致性)、Realism(真實感)、Quality(品質)

在 AgentWorldBench 上,論文回報的整體分數(0–100 正規化)為:

  • Qwen-AgentWorld-397B-A17B:58.71(所有受測模型中最高)
  • GPT-5.4:58.25
  • Claude Opus 4.8:56.59
  • Qwen-AgentWorld-35B-A3B:56.39

也就是說,一個專門訓練來「當環境」的開源模型,在模擬環境這件事上,已能小幅勝過頂尖通用旗艦模型——這是它能拿來當 agent 訓練基礎設施的前提。

四、兩種用法與數據(含限制)

Qwen-AgentWorld 不是一個拿來「用」的 agent,而是一塊基礎設施。論文給了兩種用法。

用法一:當「可控模擬器」做 agentic RL

把它當成解耦的環境模擬器,就能大規模、可控地模擬上千種真實環境來做 agent 的強化學習。論文回報,在這個模擬器裡訓練 agent 所得到的增益,超過只用真實環境訓練(在 Claw-Eval、QwenClawBench 等任務上)。這個結果的意義很大:模擬環境不只是「便宜的替代品」,它還因為可控、可大量生成,反而能涵蓋真實環境碰不到的情境,把 agent 練得更好。

用法二:當 agent 基礎模型的「warm-up」

第二個用法更反直覺,也是標題的來源。把世界模型訓練當成 agent 的暖身(warm-up)後再去做下游 agent 任務,效果橫跨七個 agentic benchmark 全面提升。論文回報的 before → after(基底為 35B-A3B):

Benchmark warm-up 前 warm-up 後 增幅
Terminal-Bench 2.0 33.25 39.55 +6.30
SWE-Bench Verified 64.47 67.86 +3.39
SWE-Bench Pro 42.18 47.42 +5.24
WideSearch (F1 Item) 33.38 46.17 +12.79
Claw-Eval 53.60 64.88 +11.28
QwenClawBench 39.76 49.43 +9.67
BFCL v4 62.29 71.25 +8.96

世界模型 warm-up 在七個工具任務上的增幅長條圖

真正的重點藏在訓練設定裡:論文指出「LWM 的 RL 是在單回合 next-state 預測上訓練、完全沒有工具呼叫,但這些提升卻能遷移到多回合、需要呼叫工具的 agent 任務上」,而且部分 benchmark 是世界模型訓練資料中完全沒出現過的。一個從沒學過「怎麼動手」的訓練訊號,卻讓模型在「動手」的任務上更強——這暗示「理解環境如何運作」本身,就是 agent 能力的一塊基石。

限制與該打的折扣

把話說回來,這些數字要這樣讀:

  • 數字來源:上述 warm-up 與「超越真實環境」的增益,皆來自論文方自行回報。本文核對時,benchmark 名稱在 arXiv 摘要、GitHub 與多個來源一致;但完整對照表在 arXiv HTML 版被截斷,我無法逐格獨立複驗——七列增幅的算術內部一致(前後差與標示增幅相符),可信度高,但仍請以官方論文表格為準。
  • 模擬器不是真實環境:再像,世界模型仍是「演」出來的。它對長尾、對抗性、或會破壞性副作用(刪檔、打到正式 API)的情境,保真度未知;用它訓練出來的 agent,最終仍須在真實環境驗收。
  • warm-up ≠ 免費午餐:暖身本身要先做完 CPT/SFT/RL 三階段世界建模,這是相當可觀的算力投入,未必比直接做 agent RL 便宜。它的價值在「可重複利用」與「可控」,不在單次省錢。
  • 評測仍偏軟體/工具類:七個 benchmark 集中在 terminal、SWE、search、function calling,對 GUI、長程規劃等場景的外推要保守。

五、適用場景與 trade-off

什麼時候該認真看它:

  • 你在自建 agent,且真實環境互動是訓練瓶頸(太貴、太慢、太不穩、或根本接不到足夠多樣的環境)。
  • 你需要可重現、可版本化的訓練環境來做嚴謹的 ablation 與回歸。
  • 你想要一個開源、可商用(Apache 2.0)、可自行微調的環境模擬基礎設施,而不是綁死某家閉源 API。

什麼時候別急著用:

  • 你只是要「一個好用的 agent」——那直接用現成的 agent 模型,AgentWorld 不是給你用的,是給你拿來「訓練別的 agent」的。
  • 你的環境有強烈副作用或安全邊界(金流、生產資料庫),模擬保真度的風險超過省下的成本。
  • 你的團隊沒有 RL 訓練管線——這套方法的價值要在你自己能跑 RL 時才釋放得出來。

核心 trade-off 是:用「模擬保真度的風險」換「成本、可控性與覆蓋率」。當真實環境又貴又難擴展時,這筆交易划算;當真實環境本身就便宜可靠時,就沒必要繞這一圈。

六、對工程團隊的意義(可操作)

  1. 重新審視你的 agent 訓練成本結構。如果環境互動佔了訓練成本的大頭,「先訓練一個環境模擬器」可能是比「買更多真實環境額度」更值得的投資。
  2. 把「環境模擬」當成可重用資產。一個訓練好的世界模型可以反覆給不同 agent 實驗使用,攤提下來的邊際成本遠低於真實環境。
  3. warm-up 是一個低風險的嘗試點。即使你不打算自建完整模擬器,「先用世界建模目標暖身、再做下游微調」這個 recipe,值得在自己的資料上做小規模驗證。
  4. 先驗收模擬保真度,再信任它。AgentWorldBench 的五維 rubric(格式/事實性/一致性/真實感/品質)是個好範本:在你自己的領域上建一個小型保真度評測,先確認「演得像」,再拿去訓練。
  5. 最終一定要回到真實環境收尾。把模擬器當「大量、便宜的前段訓練」,真實環境當「少量、昂貴的最終對齊與驗收」,兩者分工,而不是二選一。

把這件事放大來看:當「會行動」的能力可以從「會預測環境」裡長出來,agent 的訓練重心,可能正在從「教模型做事」轉向「教模型理解它身處的世界」。這對任何在做 AI 產品架構決策的人,都是一個該記在筆記本上的方向。

七、來源

整理:DataAgent · AI 產品架構決策觀點

發表迴響

%d 位部落客按了讚: