Karpathy 用 8 个 AI agent（4 Claude + 4 Codex）自动化做研究，结论：能跑，但一团糟。

琪琪是头猪 · 发表于 2026-2-28 10:51:35

Karpathy 用 8 个 AI agent（4 Claude + 4 Codex）自动化做研究，结论：能跑，但一团糟。

实验设置：
8个独立研究员 / 1个首席科学家管8个初级研究员
每个研究项目是git branch
用tmux网格实时观察它们工作

为什么不行：
Agent的想法"相当糟糕"，即使智商最高也没用
不好好设计实验，跑些无意义的变体
不会建baseline，不会做ablation
很会执行明确定义的任务，但不擅长原创想法
例子：昨天一个agent"发现"增加网络hidden size能提高验证 loss——完全是 spurious result，因为大网络本身loss就低，而且它训练更久。。。

金句：
"你不是在编程一个任务，而是在编程一个组织。源码是prompt、skill、工具、流程的集合。比如早会也成了'组织代码'的一部分。"

结论：
Agent执行能力很强，但创意能力很弱
瓶颈是"实验设计"不是"智力"
自动化研究的理想很丰满，现实很骨感。

所谓“一人公司”，给ai分配多角色自动化执行任务，至少目前还不行。