查看: 57|回复: 0

Karpathy 用 8 个 AI agent(4 Claude + 4 Codex)自动化做研究,结论:能跑,但一团糟。

[复制链接]

11

主题

0

回帖

33

积分

新手上路

积分
33
发表于 2026-2-28 10:51:35 | 显示全部楼层 |阅读模式
Karpathy 用 8 个 AI agent(4 Claude + 4 Codex)自动化做研究,结论:能跑,但一团糟。


实验设置:
8个独立研究员 / 1个首席科学家管8个初级研究员
每个研究项目是git branch
用tmux网格实时观察它们工作

为什么不行:
Agent的想法"相当糟糕",即使智商最高也没用
不好好设计实验,跑些无意义的变体
不会建baseline,不会做ablation
很会执行明确定义的任务,但不擅长原创想法
例子:昨天一个agent"发现"增加网络hidden size能提高验证 loss——完全是 spurious result,因为大网络本身loss就低,而且它训练更久。。。

金句:
"你不是在编程一个任务,而是在编程一个组织。源码是prompt、skill、工具、流程的集合。比如早会也成了'组织代码'的一部分。"

结论:
Agent执行能力很强,但创意能力很弱
瓶颈是"实验设计"不是"智力"
自动化研究的理想很丰满,现实很骨感。

所谓“一人公司”,给ai分配多角色自动化执行任务,至少目前还不行。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部