Anthropic 工程师做了个挺有意思的实验。

奇世天下 · 发表于昨天 12:31

Anthropic 工程师做了个挺有意思的实验。

让 Claude 自己写代码，自己审代码，结果发现——自己审自己的时候，基本都在夸写得真好，哪怕代码一堆 bug。

后来改成两个 Agent 对抗：一个负责写，一个负责挑刺。写的那个知道有人要刁难它，反而认真起来了。

前端设计实验里，评估器用 Playwright 真的去点页面，截图、找问题、打分。一轮不行就再来一轮，有时候迭代 15 次。有个博物馆网站的案例，第 10 轮突然开了窍，把整个设计推翻重做成 3D 空间体验，这种跳跃单靠一次生成根本出不来。

后来扩展到全栈开发，加了个 Planner 先把一句话需求扩成完整规格，Generator 一个功能一个功能做，Evaluator 每轮都用 Playwright 点一遍找 bug。

对比挺悬殊：单 Agent 20 分钟花 9 刀，做出来的游戏引擎核心功能都是坏的；完整 Harness 跑 6 小时花 200 刀，但东西真能玩。

有意思的是，模型越强，这套框架反而可以越简单。换成 Opus 4.6 后，中间的 Sprint 结构直接砍掉，成本降到 4 小时 124 刀，质量没怎么掉。

作者有句话我挺认同：模型变强，Harness 的价值空间不会消失，只是会移动。AI 工程师的工作就是不断找到下一个有效的组合方式。

说到底，现在的模型还是得有人盯着。不是不信任，是它真的会自我感觉良好。

##

扯淡的城堡 · 发表于昨天 12:31

模型自我感觉良好的典型例子：我用最直白，最不绕弯，你一看就能懂的说法告诉你…大家都知道我说的谁[doge]

Anthropic 工程师做了个挺有意思的实验。

相关帖子