阿里巴巴 Qwen-AgentWorld：不訓練 agent 行動，改訓練模型「預測環境」

瀏覽次數: 2

「一個從來沒有被當成 agent 訓練過的模型，卻在七個 agent benchmark 上全面變強。」這句話聽起來像標題黨，但它確實是阿里巴巴 Qwen 團隊在 Qwen-AgentWorld 這篇論文裡回報的結果。對任何正在燒錢做 agent 訓練的團隊來說，這個發現值得停下來想清楚：如果讓 agent「更會行動」的方法，是先讓模型「更會預測環境」，那我們現在投在真實環境互動上的成本，是不是放錯了地方？

這篇文章把這套方法拆開講清楚——它到底訓練了什麼、為什麼會有效、數字有多少水分、以及什麼情境下你該認真考慮它。

本文大綱

一、為什麼這件事值得關注

過去兩年，提升 agent 能力的主流路線是「在真實環境裡做強化學習」：給模型一個瀏覽器、一個 terminal、一支 API，讓它反覆嘗試、用結果當獎勵訊號去調策略。這條路有效，但代價很重：

貴：每一步動作都要真的去執行，呼叫真實 API、開真實沙箱、等真實回應。
不可控：環境會變、會壞、會有 rate limit，同一個任務跑兩次結果可能不同。
不可重現：環境狀態難以版本化，實驗很難精確復現。
覆蓋有限：你只能在自己接得到的環境裡訓練，長尾場景幾乎碰不到。

Qwen-AgentWorld 換了一個角度：與其拼命訓練「會行動的 agent」，不如先訓練一個「會預測環境會怎麼變」的模型。這個轉向，正是 VentureBeat 用「這個模型從沒被當成 agent 訓練過」當標題的原因。

二、背景：什麼是「世界模型」，以及它要解決什麼

「世界模型（world model）」這個概念並不新——它指的是一個能根據當前觀察與動作，預測環境接下來會如何變化的模型，是推理與規劃的核心認知機制。在機器人與遊戲領域，世界模型通常是預測下一幀影像或下一個狀態向量。

Qwen-AgentWorld 的關鍵動作，是把世界模型搬到純語言的 agent 環境裡，做成「語言世界模型（Language World Model, LWM）」。它的研究問題很直接：一個 agent 互動環境（terminal、瀏覽器、手機、API）能不能整個被一個語言模型「演」出來？如果可以，那這個模擬器就能取代昂貴的真實環境，去大規模、可控地訓練 agent。

阿里巴巴一次釋出兩個尺寸（皆為 MoE 架構，Apache 2.0 授權）：

Qwen-AgentWorld-35B-A3B：總參數 35B、啟用 3B、256K context。
Qwen-AgentWorld-397B-A17B：總參數 397B、啟用 17B。

它涵蓋七個領域於單一架構之下：MCP、Search、Terminal、SWE（軟體工程）、Android、Web、OS。

三、運作原理（核心）

角色對調：讓模型去「當環境」，而不是「當玩家」

這是整篇論文最該記住的一句話。在標準 agent 迴圈裡有兩個角色：

Agent：看到觀察 oₜ，輸出動作 aₜ。傳統 RL 訓練的就是這個策略 π(a｜history)。
Environment：收到動作 aₜ，回傳下一個觀察 oₜ₊₁。

Qwen-AgentWorld 不去學左邊的策略，而是去學右邊的環境轉移。論文把模型定義為一個「條件式文本生成器，給定互動歷史與 agent 的當前動作，預測下一個環境觀察」——也就是學 P(oₜ₊₁｜history, aₜ)。換句話說，這個模型被訓練成「環境本人」，而不是在環境裡行動的玩家。

為什麼用「長鏈推理」來預測環境

預測「下一個 observation」聽起來像填空，但真實環境的回應往往要經過一連串隱含計算：你打了一個 git commit，environment 要先判斷工作目錄狀態、檢查有沒有 staged 變更、再決定輸出什麼。Qwen-AgentWorld 把這個過程做成長鏈推理（long chain-of-thought）：模型先「想」這個動作在當前狀態下會觸發什麼，再生成最終的觀察文本。這讓它預測的不是表面字串，而是有內在一致性的環境行為。

三階段訓練管線

論文回報模型是用超過 1,000 萬條真實環境互動軌跡、跨七個領域，經由三階段管線訓練而成：

CPT（持續預訓練）：注入通用的世界建模能力，讓模型先具備「環境長什麼樣」的底層知識。
SFT（監督微調）：啟動 next-state-prediction 的推理能力，教模型用長鏈推理去預測下一個狀態。
RL（強化學習）：銳化模擬保真度，讓預測出來的環境更貼近真實。

值得注意的是，這三個階段全程都在做世界建模，模型自始至終沒有被訓練去「採取行動、呼叫工具」。

怎麼衡量「環境演得像不像」：AgentWorldBench

要當模擬器，光會生成還不夠，得演得夠真。阿里巴巴同時釋出評測集 AgentWorldBench：取 5 個前沿模型在 9 個既有 benchmark 上的真實互動軌跡，丟進真實環境執行，再抽取成環境軌跡——刻意做成分布外（out-of-distribution）評測，避免模型只是背題。評分用五個維度的 rubric（各 1–5 分）：Format（格式）、Factuality（事實性）、Consistency（一致性）、Realism（真實感）、Quality（品質）。

在 AgentWorldBench 上，論文回報的整體分數（0–100 正規化）為：

Qwen-AgentWorld-397B-A17B：58.71（所有受測模型中最高）
GPT-5.4：58.25
Claude Opus 4.8：56.59
Qwen-AgentWorld-35B-A3B：56.39

也就是說，一個專門訓練來「當環境」的開源模型，在模擬環境這件事上，已能小幅勝過頂尖通用旗艦模型——這是它能拿來當 agent 訓練基礎設施的前提。

四、兩種用法與數據（含限制）

Qwen-AgentWorld 不是一個拿來「用」的 agent，而是一塊基礎設施。論文給了兩種用法。

用法一：當「可控模擬器」做 agentic RL

把它當成解耦的環境模擬器，就能大規模、可控地模擬上千種真實環境來做 agent 的強化學習。論文回報，在這個模擬器裡訓練 agent 所得到的增益，超過只用真實環境訓練（在 Claw-Eval、QwenClawBench 等任務上）。這個結果的意義很大：模擬環境不只是「便宜的替代品」，它還因為可控、可大量生成，反而能涵蓋真實環境碰不到的情境，把 agent 練得更好。

用法二：當 agent 基礎模型的「warm-up」

第二個用法更反直覺，也是標題的來源。把世界模型訓練當成 agent 的暖身（warm-up）後再去做下游 agent 任務，效果橫跨七個 agentic benchmark 全面提升。論文回報的 before → after（基底為 35B-A3B）：

Benchmark	warm-up 前	warm-up 後	增幅
Terminal-Bench 2.0	33.25	39.55	+6.30
SWE-Bench Verified	64.47	67.86	+3.39
SWE-Bench Pro	42.18	47.42	+5.24
WideSearch (F1 Item)	33.38	46.17	+12.79
Claw-Eval	53.60	64.88	+11.28
QwenClawBench	39.76	49.43	+9.67
BFCL v4	62.29	71.25	+8.96

真正的重點藏在訓練設定裡：論文指出「LWM 的 RL 是在單回合 next-state 預測上訓練、完全沒有工具呼叫，但這些提升卻能遷移到多回合、需要呼叫工具的 agent 任務上」，而且部分 benchmark 是世界模型訓練資料中完全沒出現過的。一個從沒學過「怎麼動手」的訓練訊號，卻讓模型在「動手」的任務上更強——這暗示「理解環境如何運作」本身，就是 agent 能力的一塊基石。

限制與該打的折扣

把話說回來，這些數字要這樣讀：

數字來源：上述 warm-up 與「超越真實環境」的增益，皆來自論文方自行回報。本文核對時，benchmark 名稱在 arXiv 摘要、GitHub 與多個來源一致；但完整對照表在 arXiv HTML 版被截斷，我無法逐格獨立複驗——七列增幅的算術內部一致（前後差與標示增幅相符），可信度高，但仍請以官方論文表格為準。
模擬器不是真實環境：再像，世界模型仍是「演」出來的。它對長尾、對抗性、或會破壞性副作用（刪檔、打到正式 API）的情境，保真度未知；用它訓練出來的 agent，最終仍須在真實環境驗收。
warm-up ≠ 免費午餐：暖身本身要先做完 CPT/SFT/RL 三階段世界建模，這是相當可觀的算力投入，未必比直接做 agent RL 便宜。它的價值在「可重複利用」與「可控」，不在單次省錢。
評測仍偏軟體/工具類：七個 benchmark 集中在 terminal、SWE、search、function calling，對 GUI、長程規劃等場景的外推要保守。

五、適用場景與 trade-off

什麼時候該認真看它：

你在自建 agent，且真實環境互動是訓練瓶頸（太貴、太慢、太不穩、或根本接不到足夠多樣的環境）。
你需要可重現、可版本化的訓練環境來做嚴謹的 ablation 與回歸。
你想要一個開源、可商用（Apache 2.0）、可自行微調的環境模擬基礎設施，而不是綁死某家閉源 API。

什麼時候別急著用：

你只是要「一個好用的 agent」——那直接用現成的 agent 模型，AgentWorld 不是給你用的，是給你拿來「訓練別的 agent」的。
你的環境有強烈副作用或安全邊界（金流、生產資料庫），模擬保真度的風險超過省下的成本。
你的團隊沒有 RL 訓練管線——這套方法的價值要在你自己能跑 RL 時才釋放得出來。

核心 trade-off 是：用「模擬保真度的風險」換「成本、可控性與覆蓋率」。當真實環境又貴又難擴展時，這筆交易划算；當真實環境本身就便宜可靠時，就沒必要繞這一圈。

六、對工程團隊的意義（可操作）

重新審視你的 agent 訓練成本結構。如果環境互動佔了訓練成本的大頭，「先訓練一個環境模擬器」可能是比「買更多真實環境額度」更值得的投資。
把「環境模擬」當成可重用資產。一個訓練好的世界模型可以反覆給不同 agent 實驗使用，攤提下來的邊際成本遠低於真實環境。
warm-up 是一個低風險的嘗試點。即使你不打算自建完整模擬器，「先用世界建模目標暖身、再做下游微調」這個 recipe，值得在自己的資料上做小規模驗證。
先驗收模擬保真度，再信任它。AgentWorldBench 的五維 rubric（格式／事實性／一致性／真實感／品質）是個好範本：在你自己的領域上建一個小型保真度評測，先確認「演得像」，再拿去訓練。
最終一定要回到真實環境收尾。把模擬器當「大量、便宜的前段訓練」，真實環境當「少量、昂貴的最終對齊與驗收」，兩者分工，而不是二選一。

把這件事放大來看：當「會行動」的能力可以從「會預測環境」裡長出來，agent 的訓練重心，可能正在從「教模型做事」轉向「教模型理解它身處的世界」。這對任何在做 AI 產品架構決策的人，都是一個該記在筆記本上的方向。

七、來源

論文：Qwen-AgentWorld: Language World Models for General Agents，arXiv:2606.24597（Yuxin Zuo、Zikai Xiao、…、An Yang、Dayiheng Liu、Jingren Zhou、Ning Ding 等，Alibaba Qwen 團隊）。https://arxiv.org/abs/2606.24597
官方程式碼與模型：https://github.com/QwenLM/Qwen-AgentWorld （Apache 2.0）
評測資料集：https://huggingface.co/datasets/Qwen/AgentWorldBench
報導：VentureBeat，「Alibaba's model never trained as an agent — and improved agent performance across seven benchmarks」。https://venturebeat.com/technology/alibabas-model-never-trained-as-an-agent-and-improved-agent-performance-across-seven-benchmarks