Ornith 1.0 397B 真的「超越 Opus 4.7」嗎？查證後：一半是真、一半是行銷

瀏覽次數: 3

這幾天很多人問：「Ornith 1.0 397B 聽說超越 Opus 4.7，是真的嗎？」

我們把官方數據、獨立實測、以及 SWE-Bench 本身可不可信的學術研究全查了一遍。短答案：贏是真的贏，但被行銷簡化了。 它贏的是上一代旗艦、只在部分測試、而且所有數字目前都是廠商自報。這篇把完整的證據攤開，也告訴你這件事真正值得記住的重點是什麼。

本文大綱

先給你一句話真相（TL;DR）

✅ 是真的：Ornith 1.0 397B 在 Terminal-Bench 2.1（77.5 vs 70.3）和 SWE-Bench Verified（82.4 vs 80.8）超越 Claude Opus 4.7，而且開源 MIT。
⚠️ 但沒那麼神：同一張官方表上，SWE-Bench Pro、NL2Repo、ClawEval 三項，Opus 4.7 反而還贏；Terminal-Bench 上連開源第一都不是（GLM-5.2-744B 更高）；而現役旗艦 Opus 4.8 全面在它之上（87.6 / 85）。
⚠️ 數字全是自報：目前沒有任何第三方 leaderboard（LMArena、Artificial Analysis）驗證；而學界早已證明 SWE-Bench Verified 會把分數灌高 16–20 分。
🎯 真正的新聞不是排行榜：是它用 RL 學會自己寫 agent 的 scaffold（任務規劃、工具呼叫、錯誤修復），加上小模型效率驚人（35B 塞得進一張 RTX 4090）。炒作被高估、工程被低估。

Ornith 是什麼？

Ornith 1.0 是 DeepReinforce 在 2026 年 6 月 25 日開源的一整套 agentic coding 模型，MIT 授權、無地區限制，權重（FP8 / GGUF / bf16）全放在 Hugging Face。家族有四個尺寸：

9B Dense、31B Dense、35B MoE、397B MoE
context 長度 262,144（256K）token
後訓練底模：9B / 35B / 397B 基於 Qwen 3.5、31B 基於 Gemma 4（注意：不是每個都同時用兩者）

一句話定位：一個「為 agent 而生、不是為人類聊天而生」的開源 coding 模型。

真正的新聞：它會自己寫 scaffold（self-scaffolding RL）

大部分報導只抄了排行榜數字，但 Ornith 真正的技術亮點在這句官方說明：

「Ornith-1.0 用 RL 學會生成的，不只是解題的 rollout，還有驅動這些 rollout 的 scaffold。透過同時最佳化 scaffold 與最終解，模型能找到更好的搜尋路徑、產出更高品質的解。」

白話講：平常我們用 coding agent，那套「先規劃 → 呼叫工具 → 看結果 → 修錯」的流程骨架（scaffold / harness）是人類手寫的（就是各家 agent framework 在做的事）。Ornith 把這層 scaffold 當成一個可學的物件，讓它在 RL 訓練時跟模型策略一起演化——模型自己學會「該用什麼流程來解這一題」。

這才是值得開發者記住的一句：它不是又一個更會考試的模型，而是把「agent 的骨架」內化進模型本身。這個方向若成立，長期比單一 benchmark 分數更有意義。

「超越 Opus 4.7」的完整數字（不是只有兩個好看的）

以下是 DeepReinforce 自己官網的對照表（ornith.site/benchmarks）。重點是：別只看前兩欄。

模型	Terminal-Bench 2.1	SWE-Bench Verified	SWE-Bench Pro	NL2Repo	ClawEval
Ornith-1.0-397B	77.5	82.4	62.2	48.2	77.1
Claude Opus 4.7	70.3	80.8	64.3	69.7	78.2
Claude Opus 4.8	85	87.6	69.2	—	—
GLM-5.2-744B	81.0	—	62.1	48.9	—
Qwen 3.5-397B	53.5	76.4	51.6	36.8	70.7

把它讀懂：

贏 4.7 的只有 2 項：Terminal-Bench、SWE-Bench Verified。
輸 4.7 的有 3 項：SWE-Bench Pro（62.2 < 64.3）、NL2Repo（48.2 遠輸 69.7）、ClawEval（77.1 < 78.2）。
連開源第一都不是：Terminal-Bench 上 GLM-5.2-744B（81.0）比 Ornith（77.5）高。
現役旗艦全面在上：Opus 4.8 是 87.6 / 85，把 Ornith 拉開一截。

所以「超越 Opus 4.7」這句技術上為真，但完整的講法是：它在部分測試贏了上一代旗艦，輸給現役旗艦，也不是每個測試都最強。

順帶勘誤一個常見說法：「Ornith 35B 打敗 Qwen 3.5-397B」——只在 Terminal-Bench 成立（64.2 vs 53.5），在 SWE-Bench Verified 反而小輸（75.6 vs 76.4）。別無條件轉發。

查證：這張表本身可信嗎？

兩個層面要分清楚：

① 這些數字目前全是「廠商自報」。 截至查證時，沒有任何獨立第三方 leaderboard（LMArena、Artificial Analysis）收錄 Ornith；連公開喊「要用 BridgeBench 實測」的人也還沒放結果。表上的 Claude 分數也只出現在 DeepReinforce 自己的頁面。先當成「廠商聲稱」，不是已驗證事實。

② SWE-Bench Verified 這個測試本身就會灌水——但這是打 benchmark，不是打 Ornith。 三篇獨立學術研究值得知道：

SWE-ABS（arXiv:2603.00520，2026/2）：把測試加嚴後，前 30 名 agent 被標記「已解」的 patch 有 19.78%（2,184 / 11,041）其實語意錯誤；當時第一名的分數從 78.8 掉到 62.2、名次從第 1 掉到第 5。
SWE-Bench+（arXiv:2410.06992，2024/10）：32.67% 的成功 patch 有「解答外洩」（答案就寫在 issue 裡，模型用抄的）；另有 31% 因測試太弱而可疑。
Wang/Pradel/Liu（arXiv:2503.15223，2025/3）：7.8% 的 patch 功能其實不對、29.6% 行為與正解有出入。

重點：這些研究沒有一篇在講 Ornith，它們指控的是 SWE-Bench 這個排行榜對「所有模型」都容易高估。所以看到任何模型（包含 Claude）在 SWE-Bench 上的高分，都該打點折。

實測怎麼說？兩極。

正面——Simon Willison（本地跑小模型）：他把 35B GGUF 用 LM Studio 在本機跑、接上自己的 agent harness，結論是：

「初步印象非常好——它能在多次工具呼叫中，很熟練地跑完整套 agent harness。」

他刻意強調動手實測比 benchmark 表更有意義，而且沒有附和「benchmaxed」的指控。畫圖約 103 tokens/秒。

正面（限定範圍）——DGX Spark 日文實測（classmethod）：9B 在 ELYZA 自由書寫拿到 3.89（受測 5 個模型中最高）；小模型在單機上表現扎實。

負面——NVIDIA 開發者論壇（最真實的 coding 訊號）：實際拿 397B 寫 code 的人回報「幻覺出一個不存在的 bug」「忘記自己 3 輪前做的改動」「卡進無限迴圈」（據稱是繼承自 Qwen 3.5-397B 底模、在約 100K context 後出現）；還有人說預設的 RTN 量化「幾乎沒法用」。

綜合：小模型（9B/35B）是真的能用、又省，不像純刷分的海市蜃樓；但 397B 不是能直接換掉 Opus 的 drop-in，實戰有明顯毛病。

「單 GPU 就能跑」是真的嗎？

只對小模型成立。 那句瘋傳的「Runs on One GPU」來自二手標題，容易誤導：

9B：Q4 約 6GB、bf16 約 19GB——一張 80GB GPU 綽綽有餘。
35B MoE：Q5_K_M 約 25GB——塞得進一張 RTX 4090 或 24GB 的 Mac。
397B：FP8 約 200GB、bf16 約 400GB——要一整個 8×80GB 節點（官方 recipe 就是 tensor-parallel 8）。旗艦根本不是單 GPU 模型。

跑法：vLLM ≥ 0.19.1 / SGLang ≥ 0.5.9 / llama.cpp（GGUF），提供 OpenAI 相容端點，可直接接 Claude Code、OpenHands、OpenClaw 等 agent。

我們的判讀：炒作被高估，工程被低估

如果你只想要一句可以帶走的結論：

Ornith 1.0 的「超越 Claude」是行銷話術（只贏上一代、部分測試、自報數字、跑在會灌水的 benchmark 上）；但它的「自己學會寫 scaffold + 開源 + 小模型能在一張顯卡上跑得動」是被低估的真本事。

什麼時候你該認真看它：

你要本地／離線／可控的 coding 模型，又不想付訂閱 → 9B / 35B 很值得試（一張 4090 起跳）。
你在研究 agent 訓練方法 → self-scaffolding RL 是今年最值得追的方向之一。
你需要開源可商用（MIT）、可自行微調的底模。

什麼時候先別衝：

你想要現在就最強的 coding 表現 → 那還是 Opus 4.8（Ornith 自己的表都這麼說）。
你要拿 397B 當生產主力 → 先等獨立實測，注意幻覺／失憶／迴圈的回報。

一句總結：這是一個真的有進步、但被標題黨簡化的開源模型。看它，看它的 scaffold 和效率，別看它的「屠榜」。

速覽

項目	內容
是誰做的	DeepReinforce，2026/6/25，MIT 開源
尺寸	9B / 31B Dense、35B / 397B MoE（256K context）
真本事	self-scaffolding RL（自學 agent scaffold）＋小模型效率
贏 Opus 4.7？	只在 Terminal-Bench、SWE-Bench Verified 兩項；其餘 4.7 還贏
對上 Opus 4.8？	全面落後（4.8：87.6 / 85）
數字可信度	全廠商自報、無第三方驗證；SWE-Bench 本身已知會高估 16–20 分
單 GPU？	9B/35B 可以（4090 級）；397B 要 8×80GB
建議	本地/研究/小模型很值得；生產主力仍看 Opus 4.8

主要來源

官方：ornith.site ／ ornith.site/benchmarks ／ Hugging Face deepreinforce-ai ／ GitHub deepreinforce-ai/Ornith-1
實測：Simon Willison（simonwillison.net/2026/Jun/29/ornith）、classmethod DGX Spark 日文測試、NVIDIA Developer Forums 397B 討論串
benchmark 可信度研究：SWE-ABS（arXiv:2603.00520）、SWE-Bench+（arXiv:2410.06992）、Wang/Pradel/Liu（arXiv:2503.15223）
質疑聲音：BridgeMind、Matthew Miller（X，均尚未公佈實測結果）