AI 產業觀察

Ornith 1.0 397B 真的「超越 Opus 4.7」嗎?查證後:一半是真、一半是行銷

這幾天很多人問:「Ornith 1.0 397B 聽說超越 Opus 4.7,是真的嗎?」

我們把官方數據、獨立實測、以及 SWE-Bench 本身可不可信的學術研究全查了一遍。短答案:贏是真的贏,但被行銷簡化了。 它贏的是上一代旗艦、只在部分測試、而且所有數字目前都是廠商自報。這篇把完整的證據攤開,也告訴你這件事真正值得記住的重點是什麼。


先給你一句話真相(TL;DR)

  • 是真的:Ornith 1.0 397B 在 Terminal-Bench 2.1(77.5 vs 70.3)和 SWE-Bench Verified(82.4 vs 80.8)超越 Claude Opus 4.7,而且開源 MIT
  • ⚠️ 但沒那麼神:同一張官方表上,SWE-Bench Pro、NL2Repo、ClawEval 三項,Opus 4.7 反而還贏;Terminal-Bench 上連開源第一都不是(GLM-5.2-744B 更高);而現役旗艦 Opus 4.8 全面在它之上(87.6 / 85)。
  • ⚠️ 數字全是自報:目前沒有任何第三方 leaderboard(LMArena、Artificial Analysis)驗證;而學界早已證明 SWE-Bench Verified 會把分數灌高 16–20 分。
  • 🎯 真正的新聞不是排行榜:是它用 RL 學會自己寫 agent 的 scaffold(任務規劃、工具呼叫、錯誤修復),加上小模型效率驚人(35B 塞得進一張 RTX 4090)。炒作被高估、工程被低估。

Ornith 是什麼?

Ornith 1.0DeepReinforce2026 年 6 月 25 日開源的一整套 agentic coding 模型,MIT 授權、無地區限制,權重(FP8 / GGUF / bf16)全放在 Hugging Face。家族有四個尺寸:

  • 9B Dense、31B Dense、35B MoE、397B MoE
  • context 長度 262,144(256K)token
  • 後訓練底模:9B / 35B / 397B 基於 Qwen 3.5、31B 基於 Gemma 4(注意:不是每個都同時用兩者)

一句話定位:一個「為 agent 而生、不是為人類聊天而生」的開源 coding 模型

真正的新聞:它會自己寫 scaffold(self-scaffolding RL)

大部分報導只抄了排行榜數字,但 Ornith 真正的技術亮點在這句官方說明:

「Ornith-1.0 用 RL 學會生成的,不只是解題的 rollout,還有驅動這些 rollout 的 scaffold。透過同時最佳化 scaffold 與最終解,模型能找到更好的搜尋路徑、產出更高品質的解。」

白話講:平常我們用 coding agent,那套「先規劃 → 呼叫工具 → 看結果 → 修錯」的流程骨架(scaffold / harness)是人類手寫的(就是各家 agent framework 在做的事)。Ornith 把這層 scaffold 當成一個可學的物件,讓它在 RL 訓練時跟模型策略一起演化——模型自己學會「該用什麼流程來解這一題」。

這才是值得開發者記住的一句:它不是又一個更會考試的模型,而是把「agent 的骨架」內化進模型本身。這個方向若成立,長期比單一 benchmark 分數更有意義。

「超越 Opus 4.7」的完整數字(不是只有兩個好看的)

以下是 DeepReinforce 自己官網的對照表(ornith.site/benchmarks)。重點是:別只看前兩欄

模型 Terminal-Bench 2.1 SWE-Bench Verified SWE-Bench Pro NL2Repo ClawEval
Ornith-1.0-397B 77.5 82.4 62.2 48.2 77.1
Claude Opus 4.7 70.3 80.8 64.3 69.7 78.2
Claude Opus 4.8 85 87.6 69.2
GLM-5.2-744B 81.0 62.1 48.9
Qwen 3.5-397B 53.5 76.4 51.6 36.8 70.7

把它讀懂:

  1. 贏 4.7 的只有 2 項:Terminal-Bench、SWE-Bench Verified。
  2. 輸 4.7 的有 3 項:SWE-Bench Pro(62.2 < 64.3)、NL2Repo(48.2 遠輸 69.7)、ClawEval(77.1 < 78.2)。
  3. 連開源第一都不是:Terminal-Bench 上 GLM-5.2-744B(81.0)比 Ornith(77.5)高。
  4. 現役旗艦全面在上:Opus 4.8 是 87.6 / 85,把 Ornith 拉開一截。

所以「超越 Opus 4.7」這句技術上為真,但完整的講法是:它在部分測試贏了上一代旗艦,輸給現役旗艦,也不是每個測試都最強。

順帶勘誤一個常見說法:「Ornith 35B 打敗 Qwen 3.5-397B」——只在 Terminal-Bench 成立(64.2 vs 53.5),在 SWE-Bench Verified 反而小輸(75.6 vs 76.4)。別無條件轉發。

查證:這張表本身可信嗎?

兩個層面要分清楚:

① 這些數字目前全是「廠商自報」。 截至查證時,沒有任何獨立第三方 leaderboard(LMArena、Artificial Analysis)收錄 Ornith;連公開喊「要用 BridgeBench 實測」的人也還沒放結果。表上的 Claude 分數也只出現在 DeepReinforce 自己的頁面。先當成「廠商聲稱」,不是已驗證事實。

② SWE-Bench Verified 這個測試本身就會灌水——但這是打 benchmark,不是打 Ornith。 三篇獨立學術研究值得知道:

  • SWE-ABS(arXiv:2603.00520,2026/2):把測試加嚴後,前 30 名 agent 被標記「已解」的 patch 有 19.78%(2,184 / 11,041)其實語意錯誤;當時第一名的分數從 78.8 掉到 62.2、名次從第 1 掉到第 5。
  • SWE-Bench+(arXiv:2410.06992,2024/10):32.67% 的成功 patch 有「解答外洩」(答案就寫在 issue 裡,模型用抄的);另有 31% 因測試太弱而可疑。
  • Wang/Pradel/Liu(arXiv:2503.15223,2025/3):7.8% 的 patch 功能其實不對、29.6% 行為與正解有出入。

重點:這些研究沒有一篇在講 Ornith,它們指控的是 SWE-Bench 這個排行榜對「所有模型」都容易高估。所以看到任何模型(包含 Claude)在 SWE-Bench 上的高分,都該打點折。

實測怎麼說?兩極。

正面——Simon Willison(本地跑小模型):他把 35B GGUF 用 LM Studio 在本機跑、接上自己的 agent harness,結論是:

「初步印象非常好——它能在多次工具呼叫中,很熟練地跑完整套 agent harness。」

他刻意強調動手實測比 benchmark 表更有意義,而且沒有附和「benchmaxed」的指控。畫圖約 103 tokens/秒。

正面(限定範圍)——DGX Spark 日文實測(classmethod):9B 在 ELYZA 自由書寫拿到 3.89(受測 5 個模型中最高);小模型在單機上表現扎實。

負面——NVIDIA 開發者論壇(最真實的 coding 訊號):實際拿 397B 寫 code 的人回報「幻覺出一個不存在的 bug」「忘記自己 3 輪前做的改動」「卡進無限迴圈」(據稱是繼承自 Qwen 3.5-397B 底模、在約 100K context 後出現);還有人說預設的 RTN 量化「幾乎沒法用」。

綜合:小模型(9B/35B)是真的能用、又省,不像純刷分的海市蜃樓;但 397B 不是能直接換掉 Opus 的 drop-in,實戰有明顯毛病。

「單 GPU 就能跑」是真的嗎?

只對小模型成立。 那句瘋傳的「Runs on One GPU」來自二手標題,容易誤導:

  • 9B:Q4 約 6GB、bf16 約 19GB——一張 80GB GPU 綽綽有餘
  • 35B MoE:Q5_K_M 約 25GB——塞得進一張 RTX 4090 或 24GB 的 Mac
  • 397B:FP8 約 200GB、bf16 約 400GB——要一整個 8×80GB 節點(官方 recipe 就是 tensor-parallel 8)。旗艦根本不是單 GPU 模型。

跑法:vLLM ≥ 0.19.1 / SGLang ≥ 0.5.9 / llama.cpp(GGUF),提供 OpenAI 相容端點,可直接接 Claude Code、OpenHands、OpenClaw 等 agent。

我們的判讀:炒作被高估,工程被低估

如果你只想要一句可以帶走的結論:

Ornith 1.0 的「超越 Claude」是行銷話術(只贏上一代、部分測試、自報數字、跑在會灌水的 benchmark 上);但它的「自己學會寫 scaffold + 開源 + 小模型能在一張顯卡上跑得動」是被低估的真本事。

什麼時候你該認真看它:

  • 你要本地/離線/可控的 coding 模型,又不想付訂閱 → 9B / 35B 很值得試(一張 4090 起跳)。
  • 你在研究 agent 訓練方法 → self-scaffolding RL 是今年最值得追的方向之一。
  • 你需要開源可商用(MIT)、可自行微調的底模。

什麼時候先別衝:

  • 你想要現在就最強的 coding 表現 → 那還是 Opus 4.8(Ornith 自己的表都這麼說)。
  • 你要拿 397B 當生產主力 → 先等獨立實測,注意幻覺/失憶/迴圈的回報。

一句總結:這是一個真的有進步、但被標題黨簡化的開源模型。看它,看它的 scaffold 和效率,別看它的「屠榜」。


速覽

項目 內容
是誰做的 DeepReinforce,2026/6/25,MIT 開源
尺寸 9B / 31B Dense、35B / 397B MoE(256K context)
真本事 self-scaffolding RL(自學 agent scaffold)+小模型效率
贏 Opus 4.7? 只在 Terminal-Bench、SWE-Bench Verified 兩項;其餘 4.7 還贏
對上 Opus 4.8? 全面落後(4.8:87.6 / 85)
數字可信度 全廠商自報、無第三方驗證;SWE-Bench 本身已知會高估 16–20 分
單 GPU? 9B/35B 可以(4090 級);397B 要 8×80GB
建議 本地/研究/小模型很值得;生產主力仍看 Opus 4.8

主要來源

  • 官方:ornith.siteornith.site/benchmarks / Hugging Face deepreinforce-ai / GitHub deepreinforce-ai/Ornith-1
  • 實測:Simon Willison(simonwillison.net/2026/Jun/29/ornith)、classmethod DGX Spark 日文測試、NVIDIA Developer Forums 397B 討論串
  • benchmark 可信度研究:SWE-ABS(arXiv:2603.00520)、SWE-Bench+(arXiv:2410.06992)、Wang/Pradel/Liu(arXiv:2503.15223)
  • 質疑聲音:BridgeMind、Matthew Miller(X,均尚未公佈實測結果)

免責:本文所引 benchmark 數字多為 DeepReinforce 自報,Claude 對照分數亦僅見於其頁面;獨立驗證出爐前,請以「廠商聲稱」看待。

— DataAgent · Coding Agent 實戰教學

發表迴響

%d 位部落客按了讚: