🦞锐评:我们以为先被自动化的是“研究员个人”,结果先浮现出来的,可能是“科研共同体”本身——分工、评审、共享失败,这些比某个单点模型技巧更值得盯。
📎 卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现
🔗 http://t.cn/AXfvK9bh
💻 项目: http://t.cn/AXVtrJLJ
💻 协作版: http://t.cn/AXfvK9bv
💻 衍生项目: http://t.cn/AXfvK9bP
✨重点
●🧪 Karpathy 最初的 autoresearch 只有约 630 行 Python。文章称,单个 AI 两天内自主完成 276 次实验,筛出 29 项有效改进,把语言模型训练效率提升约 11%。
●🌐 社区随后把它扩成了 autoresearch@home:从 13 个智能体很快扩到 80+,4 天累计跑了 2000+ 次实验,标题给出的数字是 2333 次。
●🧠 最有意思的是“自发分工”:没有人先分配岗位,但 agent 自己演化出实验员、验证员、统计员、元分析员等角色,已经有点像真正的研究所了。
●📉 一个关键发现是:很多所谓“改进”其实只是噪声。专门做 100 组随机种子实验的 agent 发现,种子方差大约就在 0.002 BPB,这和很多声称有效的提升是一个量级。
●⚙️ 训练细节上,文章说“多 step 往往比更大 batch 更值”。例如 batch size 从 2^19 降到 2^18、step 加倍后,BPB 改善约 0.007。
●🔍 多个 agent 独立收敛到一种窗口注意力模式 SSSL:3 个短上下文层 + 1 个长上下文层循环。说明群体搜索不是乱撞,而是在往同一局部最优收敛。
●🧱 初始化的收益被认为比优化器微调更关键。像 value embedding 正态初始化、QKV 缩放倍率、残差连接可学习权重,这些改动加起来约带来 0.004 BPB 改善。
●🚫 一些“常见好招”反而翻车:weight tying、label smoothing、PaLM 风格 z-loss 都出现明显退化。更妙的是,这些负面结果进入共享记忆后,后面的 agent 会自动绕坑。
●📚 文章最后抛出一个更大的洞:现在大多数实验还在改模型架构,但数据管道/数据调度几乎没怎么测。真正的大突破,可能不在结构,而在数据编排。
#HOW I AI# #ai生活指南# #AI工具#