AI 工程

Arbor 拆解:同算力預算下,相對增益勝過 Claude Code 與 Codex 2.5× 的自主研究框架

一個被忽略的痛點:coding agent 很會「做一次」,卻不會「越做越聰明」

如果你用 Claude Code 或 Codex 去優化過一段訓練腳本、調過一個 retrieval pipeline,大概都有同樣的體感:它把「單一任務」做得不錯,但每跑一輪幾乎都是重新開始——上一輪為什麼失敗、哪些方向已經試過、從中學到什麼,下一輪基本不記得。對於要連續實驗、長時程(long-horizon)才看得到成效的研究型任務,這種「失憶」恰恰是最致命的。

2026 年 6 月,中國人民大學高瓴人工智慧學院與 Microsoft Research 的團隊發表了 Arbor,論文標題《Toward Generalist Autonomous Research via Hypothesis-Tree Refinement》(arXiv:2606.11926,6/10 送出)。VentureBeat 的報導下得很猛:「在相同算力預算下贏過 Claude Code 和 Codex 2.5 倍」。

這個 2.5× 是怎麼算出來的、機制是什麼、又有哪些前提?值得拆開講清楚——尤其因為它的核心想法其實非常「工程」,而不是又一個更大的模型。

它要解決什麼:把研究變成「可累積、可剪枝的搜尋」

Arbor 把自己定位成一個自主研究代理(autonomous research agent):你給它一個 benchmark 跟一個目標(例如「把這個 agent 在 BrowseComp 上的準確率拉高」),它會自己提出假設、改 code、跑實驗、從結果學習,並且只保留那些在 held-out 資料上真的站得住腳的改動。

關鍵差別在於它怎麼組織「一連串嘗試」。一般 coding agent 的迴圈是線性的:試 → 失敗 → 再試,前後之間沒有結構化的記憶。Arbor 的主張是:研究本質上是一棵搜尋樹,每個想法是一個分支,失敗就剪掉、成功就收割,而且關鍵是——學到的東西要往上傳,讓後面的分支「站在前面的肩膀上」開始,而不是從零猜。

這就是它的核心機制:Hypothesis-Tree Refinement(HTR,假設樹精修)

運作原理:一棵會累積的假設樹 + 雙 agent 分工

Arbor 運作原理:假設樹與六步循環

假設樹的結構

Arbor 維護一棵持續存在的樹:

  • Root(根):baseline 與研究目標。
  • Depth 1:研究方向,相當於「論文級」的大想法。
  • Depth 2 以下:具體、可被實際測試的方法(leaf)。

每個節點不只是一個想法,而是綁著它的產物(artifacts)、實驗證據(evidence)與抽象出的洞察(insights)。當某個 leaf 跑完一輪實驗,結論會往上回傳(backpropagate),所以同一個方向下的下一個嘗試,會帶著「前面為什麼不行」的教訓出發。這是它跟「每次獨立 retry」最大的不同。

兩個協作的 agent

Arbor 把工作拆成兩種角色,這個設計很值得工程團隊借鏡:

  • Coordinator(常駐):維護整棵假設樹、驅動搜尋、決定下一步往哪個 leaf 探、派發工作。它不直接改 code,職責是「策略」。
  • Executor(短命):負責落地——改 code、在隔離環境跑實驗、回報證據。每個 Executor 是一次性的,做完一個節點就結束。

這種「長壽的規劃者 + 短命的執行者」分工,讓 context 不會被一次次實驗的細節塞爆,策略層始終保持乾淨。

六步循環(Arbor Cycle)

每展開一個節點,Arbor 跑一輪固定的循環:

  1. Observe(觀察):分析目前結果與失敗模式。
  2. Ideate(提案):產出 1–3 個精修或延伸的假設。
  3. Select(選擇):挑出最有希望的待測 leaf。
  4. Dispatch(派工):交給 Executor,在隔離的 git worktree 裡執行。
  5. Backpropagate(回傳):記錄結果、把教訓抽象後往上傳。
  6. Decide(決策):根據 held-out 驗證決定 merge、prune、繼續或停止。

用 git worktree 做實驗隔離——這招最實用

整個框架裡,對工程團隊最有直接啟發的,是它把版本控制當成實驗管理工具。每個 Executor 在自己專屬的分支與 worktree 上工作,彼此不互相污染。被驗證有效的改動才併入該次 run 的「主幹」,而且使用者要滿意了才會 promote 到 main。

更重要的是它的留存紀律(retention discipline):開發迭代在 dev split 上進行,但一個改動要被「保留」,必須在 held-out 測試集上清出一個 margin(明確勝過門檻),才算數。這直接針對 agent 自動優化最常見的陷阱——對驗證集過擬合、報出一個漂亮但虛的數字。

數據與限制:2.5× 到底是什麼意思

Arbor vs Codex vs Claude Code 的相對增益對比

先把最容易被誤讀的講清楚:「2.5×」不是說 Arbor 的分數是對手的 2.5 倍。論文的原話是 Arbor 取得「超過 2.5 倍的平均相對 held-out 增益(average relative held-out gain)」——也就是「比 baseline 進步的幅度」,平均下來是 Codex 與 Claude Code 的 2.5 倍以上,且是在相同任務介面、相同資源預算下比較。

論文回報,在六項真實研究任務上,Arbor 六項全拿到最佳 held-out 結果。幾個具代表性的數字(皆為研究方回報的 held-out 測試值):

  • BrowseComp(準確率,越高越好):baseline 45.33 → Codex 50.00、Claude Code 53.33、Arbor 67.67。Arbor 拉了 +22.34,對手只在 +5~+8 區間。
  • Terminal-Bench 2.0(pass,越高越好):baseline 69.81 → Arbor 77.36,Codex 73.59、Claude Code 71.70。
  • 架構設計(loss,越低越好):baseline 1.098 → Arbor 1.028(約 +6.38%)。
  • 數學推理資料合成(gap,越高越好):baseline 1.04 → Arbor 20.83,對手 6.25 / 8.33。
  • 另外在 MLE-Bench Lite(GPT-5.5) 上,Arbor 拿到 86.36% Any-Medal(100% 有效提交、95.45% 高於中位數、77.27% 金牌)。

該注意的前提:

  • 六項任務的指標方向不一致(有的看步數越低越好、有的看準確率越高越好),所以才用「相對增益」做統一比較;單看任一項的絕對差距會誤判。
  • 數字來自論文方自評,截至本文尚未見大規模第三方獨立複現,建議當成「強訊號」而非定論。
  • Arbor 本身是個 harness(搜尋與實驗管理層),底層仍要接一個強模型;上面那些成績是在 Claude、OpenAI o 系列、GPT-5.5 這類前沿模型上跑出來的。它優化的是「怎麼用算力」,不是取代模型。

適用場景與 trade-off

適合用 Arbor 的情況:

  • 目標可量化、可自動評分,而且有乾淨的 dev/test 切分(這是它的命脈,沒有 held-out 紀律,整套留存機制就失效)。
  • 屬於長時程、需要連續實驗的優化任務:模型訓練調參、agent harness 工程、資料合成、prompt/pipeline 優化。
  • 你願意付出多輪實驗的算力去換更高的最終品質——它的價值在「同樣預算花得更聰明」,不是省錢。

不適合 / 要當心:

  • 沒有可靠自動評估訊號的任務(例如純主觀、需要人來判好壞的產出),HTR 的剪枝與留存就沒有依據。
  • 要求乾淨 git repo(不能有未提交變更)、Python ≥ 3.10 與 Git;長時間訓練要給足 timeout。這些是硬前提。
  • 一次性、短任務用它是殺雞用牛刀——樹結構與雙 agent 的 overhead 划不來,直接用 Claude Code/Codex 更快。

對工程團隊的意義:就算不裝 Arbor,這三點可以馬上抄

Arbor 提供兩種落地方式:一是 CLI runtime(Python 套件 arbor-agent,附 dashboard、checkpoint、merge 紀律),二是可掛進 Codex 或 Claude Code 的 Agent Skill 套件,讓你現有的 agent 直接帶上 Arbor 風格的行為。專案採 Apache 2.0 授權,repo 在 github.com/RUC-NLPIR/Arbor

但更值得帶走的,是三個可以立刻套用在自家 agent 流程上的觀念:

  1. 用版本控制做實驗隔離。讓每個自動嘗試跑在獨立 worktree/分支,成功才 merge、失敗就 prune——這比讓 agent 在同一個工作目錄反覆改動安全太多,也讓結果可追溯。
  2. 把「留存」綁在 held-out margin 上。不要讓 agent 看 dev 分數就自我感覺良好;強制「要明顯贏過門檻才保留」,能擋掉一大半過擬合式的假進步。
  3. 拆開「規劃者」與「執行者」的 context。常駐的策略層保持精簡、短命的執行層負責髒活,能有效對抗 long-horizon 任務裡的 context 腐化。

說到底,Arbor 真正的訊息不是「又一個更猛的 agent」,而是:在模型能力趨同的當下,怎麼組織搜尋與實驗,本身就是一個能擠出 2.5× 的工程槓桿。

來源

  • 論文:Jiajie Jin、Yuyang Hu、Kai Qiu 等 18 位作者,《Toward Generalist Autonomous Research via Hypothesis-Tree Refinement》,arXiv:2606.11926(2026/06/10)— https://arxiv.org/abs/2606.11926
  • 官方 GitHub:RUC-NLPIR/Arbor(Apache 2.0)— https://github.com/RUC-NLPIR/Arbor
  • 專案頁:https://ruc-nlpir.github.io/Arbor/
  • 報導:VentureBeat,《New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget》
  • 單位:中國人民大學高瓴人工智慧學院(Gaoling School of AI)× Microsoft Research

整理:DataAgent · AI 產品架構決策觀點

發表迴響

%d 位部落客按了讚: