查看: 87|回复: 0

为什么前沿 AI 大模型在公开排行榜上能刷满分,但在实际写代码时,却常常表现得像个智障?

[复制链接]

13

主题

0

回帖

39

积分

新手上路

积分
39
发表于 2026-3-13 20:29:09 来自手机 | 显示全部楼层 |阅读模式
为什么前沿 AI 大模型在公开排行榜上能刷满分,但在实际写代码时,却常常表现得像个智障?

Cursor 专门写了一篇文章来讲这事儿:

公开的基准,要么已经被放入训练集中,要么脱离实际的工作场景,要么强行规定唯一正确答案,排斥多种解答方案。

Cursor 搞了一套内部评价体系,CursorBench,采用真实的内部开发者提交作为题库,保留了人类需求的“指令模糊性”,在此维度下,模型能力拉开了真实差距。

同时建立了 Online-Offline 闭环,离线跑分再高,如果线上 A/B 测试中开发者的“体感”下降(比如疯狂拒绝接受代码),该模型依然会被否定。

希望能更准确地,反映开发者在 Cursor 中体验到的模型质量。

传送门:cursor.com/blog/cursorbench

##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部