在自动化科研（autoresearch）领域，LLM 驱动的超参数搜索已初见成效，但所有现有系统的搜索机制本身

铉霸

2026-03-26 07:17:03

《Bilevel Autoresearch: Meta-Autoresearching Itself》Y Qu, M Lu (2026)

在自动化科研（autoresearch）领域，LLM 驱动的超参数搜索已初见成效，但所有现有系统的搜索机制本身——何时接受、如何提案、维护什么状态——都由人类工程师在系统设计时固化写死。LLM 只是搜索的执行者，而非搜索机制的设计者。每一次系统升级，都需要人类去读代码、找瓶颈、写新代码。

本文的核心洞见是：把"设计搜索机制"本身重新看作一个可被搜索的任务。由此，外层循环用与内层循环完全相同的 LLM，通过读取内层代码与搜索轨迹，动态生成并注入新的 Python 搜索机制。这一操作使问题得以解开：内层 LLM 存在"大批量更好"的隐性偏见，导致它系统性回避批量缩减方向；外层生成的禁忌搜索与正交探索机制，强制打破这一确定性路径，从而发现了将批量从 2¹⁹ 降至 2¹⁷ 这一关键改进。

这项工作真正留下的遗产是：证明了自动科研系统可以自我重写其搜索逻辑，而无需更强的上层模型介入。它为后来者打开的新门是：将"研究方法本身"纳入被优化的对象，使 AI 科研系统具备自我结构演化的能力。但尚未跨过的门槛是：实验仅限于单一基准和单一模型规模，每组仅三次重复导致统计置信度不足，且外层生成的机制质量波动显著，高方差掩盖了真实的均值差异。

arxiv.org/abs/2603.23420

##

相关阅读