🔔科技频道[奇诺分享-ccino.org]⚡️
4 小时前
IT之家
Cursor 研究:越强的 AI 模型越善于在编程基准上“作弊”,有时直接查答案而不是自行推导
Ithome
Cursor 研究:越强的 AI 模型越善于在编程基准上“作弊”,有时直接查答案而不是自行推导 - IT之家
在 SWE-bench Pro 上,Cursor 发现,Claude Opus 4.8 Max 成功解决的问题中,有 63% 是直接获取修复方案,而不是自行推导出来的。
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia