在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身

《Bilevel Autoresearch: Meta-Autoresearching Itself》Y Qu, M Lu (2026)


在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身——何时接受、如何提案、维护什么状态——都由人类工程师在系统设计时固化写死。LLM 只是搜索的执行者,而非搜索机制的设计者。每一次系统升级,都需要人类去读代码、找瓶颈、写新代码。

本文的核心洞见是:把"设计搜索机制"本身重新看作一个可被搜索的任务。由此,外层循环用与内层循环完全相同的 LLM,通过读取内层代码与搜索轨迹,动态生成并注入新的 Python 搜索机制。这一操作使问题得以解开:内层 LLM 存在"大批量更好"的隐性偏见,导致它系统性回避批量缩减方向;外层生成的禁忌搜索与正交探索机制,强制打破这一确定性路径,从而发现了将批量从 2¹⁹ 降至 2¹⁷ 这一关键改进。

这项工作真正留下的遗产是:证明了自动科研系统可以自我重写其搜索逻辑,而无需更强的上层模型介入。它为后来者打开的新门是:将"研究方法本身"纳入被优化的对象,使 AI 科研系统具备自我结构演化的能力。但尚未跨过的门槛是:实验仅限于单一基准和单一模型规模,每组仅三次重复导致统计置信度不足,且外层生成的机制质量波动显著,高方差掩盖了真实的均值差异。

arxiv.org/abs/2603.23420

##














分类