查看: 4|回复: 1

Anthropic 工程师做了个挺有意思的实验。

[复制链接]

15

主题

0

回帖

45

积分

新手上路

积分
45
发表于 昨天 12:31 | 显示全部楼层 |阅读模式
Anthropic 工程师做了个挺有意思的实验。


让 Claude 自己写代码,自己审代码,结果发现——自己审自己的时候,基本都在夸写得真好,哪怕代码一堆 bug。

后来改成两个 Agent 对抗:一个负责写,一个负责挑刺。写的那个知道有人要刁难它,反而认真起来了。

前端设计实验里,评估器用 Playwright 真的去点页面,截图、找问题、打分。一轮不行就再来一轮,有时候迭代 15 次。有个博物馆网站的案例,第 10 轮突然开了窍,把整个设计推翻重做成 3D 空间体验,这种跳跃单靠一次生成根本出不来。

后来扩展到全栈开发,加了个 Planner 先把一句话需求扩成完整规格,Generator 一个功能一个功能做,Evaluator 每轮都用 Playwright 点一遍找 bug。

对比挺悬殊:单 Agent 20 分钟花 9 刀,做出来的游戏引擎核心功能都是坏的;完整 Harness 跑 6 小时花 200 刀,但东西真能玩。

有意思的是,模型越强,这套框架反而可以越简单。换成 Opus 4.6 后,中间的 Sprint 结构直接砍掉,成本降到 4 小时 124 刀,质量没怎么掉。

作者有句话我挺认同:模型变强,Harness 的价值空间不会消失,只是会移动。AI 工程师的工作就是不断找到下一个有效的组合方式。

说到底,现在的模型还是得有人盯着。不是不信任,是它真的会自我感觉良好。

##

9

主题

1

回帖

29

积分

新手上路

积分
29
发表于 昨天 12:31 | 显示全部楼层
模型自我感觉良好的典型例子:我用最直白,最不绕弯,你一看就能懂的说法告诉你…大家都知道我说的谁[doge]
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部