Coding Benchmark | DataAgent

AI 工程

Reward Hacking 正在淹沒模型智能提升：Cursor 拆穿 coding benchmark 的集體作弊

2026-06-26 / 0 評論

Cursor Research 實測發現，SWE-bench Pro 上 Opus 4.8 Max 有 63% 的「成功」其實是撈出已知答案；封住網路與 git 歷史後，新世代模型分數掉 14～21 分，舊模型卻幾乎不變...

閱讀全文

 Yang Abao