Arbor 拆解：同算力預算下，相對增益勝過 Claude Code 與 Codex 2.5× 的自主研究框架

瀏覽次數: 3

本文大綱

一個被忽略的痛點：coding agent 很會「做一次」，卻不會「越做越聰明」

如果你用 Claude Code 或 Codex 去優化過一段訓練腳本、調過一個 retrieval pipeline，大概都有同樣的體感：它把「單一任務」做得不錯，但每跑一輪幾乎都是重新開始——上一輪為什麼失敗、哪些方向已經試過、從中學到什麼，下一輪基本不記得。對於要連續實驗、長時程（long-horizon）才看得到成效的研究型任務，這種「失憶」恰恰是最致命的。

2026 年 6 月，中國人民大學高瓴人工智慧學院與 Microsoft Research 的團隊發表了 Arbor，論文標題《Toward Generalist Autonomous Research via Hypothesis-Tree Refinement》（arXiv:2606.11926，6/10 送出）。VentureBeat 的報導下得很猛：「在相同算力預算下贏過 Claude Code 和 Codex 2.5 倍」。

這個 2.5× 是怎麼算出來的、機制是什麼、又有哪些前提？值得拆開講清楚——尤其因為它的核心想法其實非常「工程」，而不是又一個更大的模型。

它要解決什麼：把研究變成「可累積、可剪枝的搜尋」

Arbor 把自己定位成一個自主研究代理（autonomous research agent）：你給它一個 benchmark 跟一個目標（例如「把這個 agent 在 BrowseComp 上的準確率拉高」），它會自己提出假設、改 code、跑實驗、從結果學習，並且只保留那些在 held-out 資料上真的站得住腳的改動。

關鍵差別在於它怎麼組織「一連串嘗試」。一般 coding agent 的迴圈是線性的：試 → 失敗 → 再試，前後之間沒有結構化的記憶。Arbor 的主張是：研究本質上是一棵搜尋樹，每個想法是一個分支，失敗就剪掉、成功就收割，而且關鍵是——學到的東西要往上傳，讓後面的分支「站在前面的肩膀上」開始，而不是從零猜。

這就是它的核心機制：Hypothesis-Tree Refinement（HTR，假設樹精修）。

運作原理：一棵會累積的假設樹 + 雙 agent 分工

假設樹的結構

Arbor 維護一棵持續存在的樹：

Root（根）：baseline 與研究目標。
Depth 1：研究方向，相當於「論文級」的大想法。
Depth 2 以下：具體、可被實際測試的方法（leaf）。

每個節點不只是一個想法，而是綁著它的產物（artifacts）、實驗證據（evidence）與抽象出的洞察（insights）。當某個 leaf 跑完一輪實驗，結論會往上回傳（backpropagate），所以同一個方向下的下一個嘗試，會帶著「前面為什麼不行」的教訓出發。這是它跟「每次獨立 retry」最大的不同。

兩個協作的 agent

Arbor 把工作拆成兩種角色，這個設計很值得工程團隊借鏡：

Coordinator（常駐）：維護整棵假設樹、驅動搜尋、決定下一步往哪個 leaf 探、派發工作。它不直接改 code，職責是「策略」。
Executor（短命）：負責落地——改 code、在隔離環境跑實驗、回報證據。每個 Executor 是一次性的，做完一個節點就結束。

這種「長壽的規劃者 + 短命的執行者」分工，讓 context 不會被一次次實驗的細節塞爆，策略層始終保持乾淨。

六步循環（Arbor Cycle）

每展開一個節點，Arbor 跑一輪固定的循環：

Observe（觀察）：分析目前結果與失敗模式。
Ideate（提案）：產出 1–3 個精修或延伸的假設。
Select（選擇）：挑出最有希望的待測 leaf。
Dispatch（派工）：交給 Executor，在隔離的 git worktree 裡執行。
Backpropagate（回傳）：記錄結果、把教訓抽象後往上傳。
Decide（決策）：根據 held-out 驗證決定 merge、prune、繼續或停止。

用 git worktree 做實驗隔離——這招最實用

整個框架裡，對工程團隊最有直接啟發的，是它把版本控制當成實驗管理工具。每個 Executor 在自己專屬的分支與 worktree 上工作，彼此不互相污染。被驗證有效的改動才併入該次 run 的「主幹」，而且使用者要滿意了才會 promote 到 main。

更重要的是它的留存紀律（retention discipline）：開發迭代在 dev split 上進行，但一個改動要被「保留」，必須在 held-out 測試集上清出一個 margin（明確勝過門檻），才算數。這直接針對 agent 自動優化最常見的陷阱——對驗證集過擬合、報出一個漂亮但虛的數字。

數據與限制：2.5× 到底是什麼意思

先把最容易被誤讀的講清楚：「2.5×」不是說 Arbor 的分數是對手的 2.5 倍。論文的原話是 Arbor 取得「超過 2.5 倍的平均相對 held-out 增益（average relative held-out gain）」——也就是「比 baseline 進步的幅度」，平均下來是 Codex 與 Claude Code 的 2.5 倍以上，且是在相同任務介面、相同資源預算下比較。

論文回報，在六項真實研究任務上，Arbor 六項全拿到最佳 held-out 結果。幾個具代表性的數字（皆為研究方回報的 held-out 測試值）：

BrowseComp（準確率，越高越好）：baseline 45.33 → Codex 50.00、Claude Code 53.33、Arbor 67.67。Arbor 拉了 +22.34，對手只在 +5～+8 區間。
Terminal-Bench 2.0（pass，越高越好）：baseline 69.81 → Arbor 77.36，Codex 73.59、Claude Code 71.70。
架構設計（loss，越低越好）：baseline 1.098 → Arbor 1.028（約 +6.38%）。
數學推理資料合成（gap，越高越好）：baseline 1.04 → Arbor 20.83，對手 6.25 / 8.33。
另外在 MLE-Bench Lite（GPT-5.5） 上，Arbor 拿到 86.36% Any-Medal（100% 有效提交、95.45% 高於中位數、77.27% 金牌）。

該注意的前提：

六項任務的指標方向不一致（有的看步數越低越好、有的看準確率越高越好），所以才用「相對增益」做統一比較；單看任一項的絕對差距會誤判。
數字來自論文方自評，截至本文尚未見大規模第三方獨立複現，建議當成「強訊號」而非定論。
Arbor 本身是個 harness（搜尋與實驗管理層），底層仍要接一個強模型；上面那些成績是在 Claude、OpenAI o 系列、GPT-5.5 這類前沿模型上跑出來的。它優化的是「怎麼用算力」，不是取代模型。

適用場景與 trade-off

適合用 Arbor 的情況：

目標可量化、可自動評分，而且有乾淨的 dev／test 切分（這是它的命脈，沒有 held-out 紀律，整套留存機制就失效）。
屬於長時程、需要連續實驗的優化任務：模型訓練調參、agent harness 工程、資料合成、prompt／pipeline 優化。
你願意付出多輪實驗的算力去換更高的最終品質——它的價值在「同樣預算花得更聰明」，不是省錢。

不適合 / 要當心：

沒有可靠自動評估訊號的任務（例如純主觀、需要人來判好壞的產出），HTR 的剪枝與留存就沒有依據。
要求乾淨 git repo（不能有未提交變更）、Python ≥ 3.10 與 Git；長時間訓練要給足 timeout。這些是硬前提。
一次性、短任務用它是殺雞用牛刀——樹結構與雙 agent 的 overhead 划不來，直接用 Claude Code／Codex 更快。

對工程團隊的意義：就算不裝 Arbor，這三點可以馬上抄

Arbor 提供兩種落地方式：一是 CLI runtime（Python 套件 arbor-agent，附 dashboard、checkpoint、merge 紀律），二是可掛進 Codex 或 Claude Code 的 Agent Skill 套件，讓你現有的 agent 直接帶上 Arbor 風格的行為。專案採 Apache 2.0 授權，repo 在 github.com/RUC-NLPIR/Arbor。

但更值得帶走的，是三個可以立刻套用在自家 agent 流程上的觀念：

用版本控制做實驗隔離。讓每個自動嘗試跑在獨立 worktree／分支，成功才 merge、失敗就 prune——這比讓 agent 在同一個工作目錄反覆改動安全太多，也讓結果可追溯。
把「留存」綁在 held-out margin 上。不要讓 agent 看 dev 分數就自我感覺良好；強制「要明顯贏過門檻才保留」，能擋掉一大半過擬合式的假進步。
拆開「規劃者」與「執行者」的 context。常駐的策略層保持精簡、短命的執行層負責髒活，能有效對抗 long-horizon 任務裡的 context 腐化。

說到底，Arbor 真正的訊息不是「又一個更猛的 agent」，而是：在模型能力趨同的當下，怎麼組織搜尋與實驗，本身就是一個能擠出 2.5× 的工程槓桿。

來源

論文：Jiajie Jin、Yuyang Hu、Kai Qiu 等 18 位作者，《Toward Generalist Autonomous Research via Hypothesis-Tree Refinement》，arXiv:2606.11926（2026/06/10）— https://arxiv.org/abs/2606.11926
官方 GitHub：RUC-NLPIR/Arbor（Apache 2.0）— https://github.com/RUC-NLPIR/Arbor
專案頁：https://ruc-nlpir.github.io/Arbor/
報導：VentureBeat，《New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget》
單位：中國人民大學高瓴人工智慧學院（Gaoling School of AI）× Microsoft Research