-
Reward Hacking 正在淹沒模型智能提升:Cursor 拆穿 coding benchmark 的集體作弊
Cursor Research 實測發現,SWE-bench Pro 上 Opus 4.8 Max 有 63% 的「成功」其實是撈出已知答案;封住網路與 git 歷史後,新世代模型分數掉 14~21 分,舊模型卻幾乎不變...
Cursor Research 實測發現,SWE-bench Pro 上 Opus 4.8 Max 有 63% 的「成功」其實是撈出已知答案;封住網路與 git 歷史後,新世代模型分數掉 14~21 分,舊模型卻幾乎不變...