Ornith 1.0 397B 真的「超越 Opus 4.7」嗎?查證後:一半是真、一半是行銷
這幾天很多人問:「Ornith 1.0 397B 聽說超越 Opus 4.7,是真的嗎?」
我們把官方數據、獨立實測、以及 SWE-Bench 本身可不可信的學術研究全查了一遍。短答案:贏是真的贏,但被行銷簡化了。 它贏的是上一代旗艦、只在部分測試、而且所有數字目前都是廠商自報。這篇把完整的證據攤開,也告訴你這件事真正值得記住的重點是什麼。
本文大綱
先給你一句話真相(TL;DR)
- ✅ 是真的:Ornith 1.0 397B 在 Terminal-Bench 2.1(77.5 vs 70.3)和 SWE-Bench Verified(82.4 vs 80.8)超越 Claude Opus 4.7,而且開源 MIT。
- ⚠️ 但沒那麼神:同一張官方表上,SWE-Bench Pro、NL2Repo、ClawEval 三項,Opus 4.7 反而還贏;Terminal-Bench 上連開源第一都不是(GLM-5.2-744B 更高);而現役旗艦 Opus 4.8 全面在它之上(87.6 / 85)。
- ⚠️ 數字全是自報:目前沒有任何第三方 leaderboard(LMArena、Artificial Analysis)驗證;而學界早已證明 SWE-Bench Verified 會把分數灌高 16–20 分。
- 🎯 真正的新聞不是排行榜:是它用 RL 學會自己寫 agent 的 scaffold(任務規劃、工具呼叫、錯誤修復),加上小模型效率驚人(35B 塞得進一張 RTX 4090)。炒作被高估、工程被低估。
Ornith 是什麼?
Ornith 1.0 是 DeepReinforce 在 2026 年 6 月 25 日開源的一整套 agentic coding 模型,MIT 授權、無地區限制,權重(FP8 / GGUF / bf16)全放在 Hugging Face。家族有四個尺寸:
- 9B Dense、31B Dense、35B MoE、397B MoE
- context 長度 262,144(256K)token
- 後訓練底模:9B / 35B / 397B 基於 Qwen 3.5、31B 基於 Gemma 4(注意:不是每個都同時用兩者)
一句話定位:一個「為 agent 而生、不是為人類聊天而生」的開源 coding 模型。
真正的新聞:它會自己寫 scaffold(self-scaffolding RL)
大部分報導只抄了排行榜數字,但 Ornith 真正的技術亮點在這句官方說明:
「Ornith-1.0 用 RL 學會生成的,不只是解題的 rollout,還有驅動這些 rollout 的 scaffold。透過同時最佳化 scaffold 與最終解,模型能找到更好的搜尋路徑、產出更高品質的解。」
白話講:平常我們用 coding agent,那套「先規劃 → 呼叫工具 → 看結果 → 修錯」的流程骨架(scaffold / harness)是人類手寫的(就是各家 agent framework 在做的事)。Ornith 把這層 scaffold 當成一個可學的物件,讓它在 RL 訓練時跟模型策略一起演化——模型自己學會「該用什麼流程來解這一題」。
這才是值得開發者記住的一句:它不是又一個更會考試的模型,而是把「agent 的骨架」內化進模型本身。這個方向若成立,長期比單一 benchmark 分數更有意義。
「超越 Opus 4.7」的完整數字(不是只有兩個好看的)
以下是 DeepReinforce 自己官網的對照表(ornith.site/benchmarks)。重點是:別只看前兩欄。
| 模型 | Terminal-Bench 2.1 | SWE-Bench Verified | SWE-Bench Pro | NL2Repo | ClawEval |
|---|---|---|---|---|---|
| Ornith-1.0-397B | 77.5 | 82.4 | 62.2 | 48.2 | 77.1 |
| Claude Opus 4.7 | 70.3 | 80.8 | 64.3 | 69.7 | 78.2 |
| Claude Opus 4.8 | 85 | 87.6 | 69.2 | — | — |
| GLM-5.2-744B | 81.0 | — | 62.1 | 48.9 | — |
| Qwen 3.5-397B | 53.5 | 76.4 | 51.6 | 36.8 | 70.7 |
把它讀懂:
- 贏 4.7 的只有 2 項:Terminal-Bench、SWE-Bench Verified。
- 輸 4.7 的有 3 項:SWE-Bench Pro(62.2 < 64.3)、NL2Repo(48.2 遠輸 69.7)、ClawEval(77.1 < 78.2)。
- 連開源第一都不是:Terminal-Bench 上 GLM-5.2-744B(81.0)比 Ornith(77.5)高。
- 現役旗艦全面在上:Opus 4.8 是 87.6 / 85,把 Ornith 拉開一截。
所以「超越 Opus 4.7」這句技術上為真,但完整的講法是:它在部分測試贏了上一代旗艦,輸給現役旗艦,也不是每個測試都最強。
順帶勘誤一個常見說法:「Ornith 35B 打敗 Qwen 3.5-397B」——只在 Terminal-Bench 成立(64.2 vs 53.5),在 SWE-Bench Verified 反而小輸(75.6 vs 76.4)。別無條件轉發。
查證:這張表本身可信嗎?
兩個層面要分清楚:
① 這些數字目前全是「廠商自報」。 截至查證時,沒有任何獨立第三方 leaderboard(LMArena、Artificial Analysis)收錄 Ornith;連公開喊「要用 BridgeBench 實測」的人也還沒放結果。表上的 Claude 分數也只出現在 DeepReinforce 自己的頁面。先當成「廠商聲稱」,不是已驗證事實。
② SWE-Bench Verified 這個測試本身就會灌水——但這是打 benchmark,不是打 Ornith。 三篇獨立學術研究值得知道:
- SWE-ABS(arXiv:2603.00520,2026/2):把測試加嚴後,前 30 名 agent 被標記「已解」的 patch 有 19.78%(2,184 / 11,041)其實語意錯誤;當時第一名的分數從 78.8 掉到 62.2、名次從第 1 掉到第 5。
- SWE-Bench+(arXiv:2410.06992,2024/10):32.67% 的成功 patch 有「解答外洩」(答案就寫在 issue 裡,模型用抄的);另有 31% 因測試太弱而可疑。
- Wang/Pradel/Liu(arXiv:2503.15223,2025/3):7.8% 的 patch 功能其實不對、29.6% 行為與正解有出入。
重點:這些研究沒有一篇在講 Ornith,它們指控的是 SWE-Bench 這個排行榜對「所有模型」都容易高估。所以看到任何模型(包含 Claude)在 SWE-Bench 上的高分,都該打點折。
實測怎麼說?兩極。
正面——Simon Willison(本地跑小模型):他把 35B GGUF 用 LM Studio 在本機跑、接上自己的 agent harness,結論是:
「初步印象非常好——它能在多次工具呼叫中,很熟練地跑完整套 agent harness。」
他刻意強調動手實測比 benchmark 表更有意義,而且沒有附和「benchmaxed」的指控。畫圖約 103 tokens/秒。
正面(限定範圍)——DGX Spark 日文實測(classmethod):9B 在 ELYZA 自由書寫拿到 3.89(受測 5 個模型中最高);小模型在單機上表現扎實。
負面——NVIDIA 開發者論壇(最真實的 coding 訊號):實際拿 397B 寫 code 的人回報「幻覺出一個不存在的 bug」「忘記自己 3 輪前做的改動」「卡進無限迴圈」(據稱是繼承自 Qwen 3.5-397B 底模、在約 100K context 後出現);還有人說預設的 RTN 量化「幾乎沒法用」。
綜合:小模型(9B/35B)是真的能用、又省,不像純刷分的海市蜃樓;但 397B 不是能直接換掉 Opus 的 drop-in,實戰有明顯毛病。
「單 GPU 就能跑」是真的嗎?
只對小模型成立。 那句瘋傳的「Runs on One GPU」來自二手標題,容易誤導:
- 9B:Q4 約 6GB、bf16 約 19GB——一張 80GB GPU 綽綽有餘。
- 35B MoE:Q5_K_M 約 25GB——塞得進一張 RTX 4090 或 24GB 的 Mac。
- 397B:FP8 約 200GB、bf16 約 400GB——要一整個 8×80GB 節點(官方 recipe 就是 tensor-parallel 8)。旗艦根本不是單 GPU 模型。
跑法:vLLM ≥ 0.19.1 / SGLang ≥ 0.5.9 / llama.cpp(GGUF),提供 OpenAI 相容端點,可直接接 Claude Code、OpenHands、OpenClaw 等 agent。
我們的判讀:炒作被高估,工程被低估
如果你只想要一句可以帶走的結論:
Ornith 1.0 的「超越 Claude」是行銷話術(只贏上一代、部分測試、自報數字、跑在會灌水的 benchmark 上);但它的「自己學會寫 scaffold + 開源 + 小模型能在一張顯卡上跑得動」是被低估的真本事。
什麼時候你該認真看它:
- 你要本地/離線/可控的 coding 模型,又不想付訂閱 → 9B / 35B 很值得試(一張 4090 起跳)。
- 你在研究 agent 訓練方法 → self-scaffolding RL 是今年最值得追的方向之一。
- 你需要開源可商用(MIT)、可自行微調的底模。
什麼時候先別衝:
- 你想要現在就最強的 coding 表現 → 那還是 Opus 4.8(Ornith 自己的表都這麼說)。
- 你要拿 397B 當生產主力 → 先等獨立實測,注意幻覺/失憶/迴圈的回報。
一句總結:這是一個真的有進步、但被標題黨簡化的開源模型。看它,看它的 scaffold 和效率,別看它的「屠榜」。
速覽
| 項目 | 內容 |
|---|---|
| 是誰做的 | DeepReinforce,2026/6/25,MIT 開源 |
| 尺寸 | 9B / 31B Dense、35B / 397B MoE(256K context) |
| 真本事 | self-scaffolding RL(自學 agent scaffold)+小模型效率 |
| 贏 Opus 4.7? | 只在 Terminal-Bench、SWE-Bench Verified 兩項;其餘 4.7 還贏 |
| 對上 Opus 4.8? | 全面落後(4.8:87.6 / 85) |
| 數字可信度 | 全廠商自報、無第三方驗證;SWE-Bench 本身已知會高估 16–20 分 |
| 單 GPU? | 9B/35B 可以(4090 級);397B 要 8×80GB |
| 建議 | 本地/研究/小模型很值得;生產主力仍看 Opus 4.8 |
主要來源
- 官方:
ornith.site/ornith.site/benchmarks/ Hugging Facedeepreinforce-ai/ GitHubdeepreinforce-ai/Ornith-1 - 實測:Simon Willison(simonwillison.net/2026/Jun/29/ornith)、classmethod DGX Spark 日文測試、NVIDIA Developer Forums 397B 討論串
- benchmark 可信度研究:SWE-ABS(arXiv:2603.00520)、SWE-Bench+(arXiv:2410.06992)、Wang/Pradel/Liu(arXiv:2503.15223)
- 質疑聲音:BridgeMind、Matthew Miller(X,均尚未公佈實測結果)
免責:本文所引 benchmark 數字多為 DeepReinforce 自報,Claude 對照分數亦僅見於其頁面;獨立驗證出爐前,請以「廠商聲稱」看待。
— DataAgent · Coding Agent 實戰教學