Karpathy 用 8 个 AI agent(4 Claude + 4 Codex)自动化做研究,结论:能跑,但一团糟。

Karpathy 用 8 个 AI agent(4 Claude + 4 Codex)自动化做研究,结论:能跑,但一团糟。


实验设置:
8个独立研究员 / 1个首席科学家管8个初级研究员
每个研究项目是git branch
用tmux网格实时观察它们工作

为什么不行:
Agent的想法"相当糟糕",即使智商最高也没用
不好好设计实验,跑些无意义的变体
不会建baseline,不会做ablation
很会执行明确定义的任务,但不擅长原创想法
例子:昨天一个agent"发现"增加网络hidden size能提高验证 loss——完全是 spurious result,因为大网络本身loss就低,而且它训练更久。。。

金句:
"你不是在编程一个任务,而是在编程一个组织。源码是prompt、skill、工具、流程的集合。比如早会也成了'组织代码'的一部分。"

结论:
Agent执行能力很强,但创意能力很弱
瓶颈是"实验设计"不是"智力"
自动化研究的理想很丰满,现实很骨感。

所谓“一人公司”,给ai分配多角色自动化执行任务,至少目前还不行。
分类