找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

为什么前沿 AI 大模型在公开排行榜上能刷满分,但在实际写代码时,却常常表现得像个智障?

[复制链接]

12

主题

0

回帖

36

积分

新手上路

积分
36
发表于 昨天 20:29 来自手机 | 显示全部楼层 |阅读模式
为什么前沿 AI 大模型在公开排行榜上能刷满分,但在实际写代码时,却常常表现得像个智障?

Cursor 专门写了一篇文章来讲这事儿:

公开的基准,要么已经被放入训练集中,要么脱离实际的工作场景,要么强行规定唯一正确答案,排斥多种解答方案。

Cursor 搞了一套内部评价体系,CursorBench,采用真实的内部开发者提交作为题库,保留了人类需求的“指令模糊性”,在此维度下,模型能力拉开了真实差距。

同时建立了 Online-Offline 闭环,离线跑分再高,如果线上 A/B 测试中开发者的“体感”下降(比如疯狂拒绝接受代码),该模型依然会被否定。

希望能更准确地,反映开发者在 Cursor 中体验到的模型质量。

传送门:cursor.com/blog/cursorbench

##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-14 01:08 , Processed in 0.225340 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表