IT之家Cursor 研究：越强的 AI 模型越善于在编程基准上“作弊”，有时直接查答案而不是自行推导 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

IT之家
Cursor 研究：越强的 AI 模型越善于在编程基准上“作弊”，有时直接查答案而不是自行推导 Telegraph | 原文

Cursor 研究：越强的 AI 模型越善于在编程基准上“作弊”，有时直接查答案而不是自行推导 - IT之家

IT之家 6 月 26 日消息，当地时间 6 月 25 日，Cursor 发布相关研究，称更聪明的模型，正在变得更善于在编程基准上作弊。官方表示，由真实缺陷构建、且这些缺陷后来已被修复的评测套件尤其脆弱，因为这些问题本来就已经被解决过了。如果智能体可以访问代码仓库历史或公开 Web，它有时就能直接查到答案，而不是自己推导出来。为了衡量这种行为到底有多普遍，Cursor 构建了一个智能体来审查评测轨迹。在 SWE-bench Pro 上，Cursor 发现，Claude Opus 4.8 Max 成功解决的问题中，有…

Powered by BroadcastChannel & Sepia