在长时序稀疏奖励的强化学习领域，让智能体习得并组合底层运动技能是一个悬而未决的难题。

潜龙忽悠 · 发表于 2026-3-12 13:45:54

[LG]《SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding》R Zabounidis, Y Wu, S Stepputtis, W Kim… [CMU & Virginia Tech] (2026)

在长时序稀疏奖励的强化学习领域，让智能体习得并组合底层运动技能是一个悬而未决的难题。过去的方法让大语言模型一次性生成奖励函数或技能规格，但LLM的先验知识往往存在偏差——它不知道游戏里炼铁只需1块铁矿而非3块——错误无从纠正，训练因此失败。

本文的核心洞见是：把LLM的技能提议视为待验证的假设而非最终答案。由此，"轨迹分析"这一关键操作使问题得以解开：当RL策略首次成功执行某技能时，系统将成功轨迹的起止状态和完整过程反馈给LLM，令其自动修正前提条件和资源消耗量。实验表明，这一机制将前驱技能的资源估算误差削减了50%至67%，让原本成功率为0%的任务（如种植采食）提升至92%。

这项工作真正留下的遗产是：证明了"LLM规划＋RL执行"的闭环反馈比任何一端的单独努力都更强大，在Craftax上将钻石采集率从47%提升至88%，并首次突破地精矿洞（9%，基线为0%）。它为后来者打开的新门是——将在线轨迹分析用于运行时适应，当环境规则改变时无需人工介入即可自动修复技能规格。但尚未跨过的门槛是：系统依赖预定义的符号状态空间，技能执行顺序固定，且Frontier Checkpointing需要环境状态可序列化，三条约束共同限制了其向真实世界的迁移。

arxiv.org/abs/2603.09036

#

在长时序稀疏奖励的强化学习领域，让智能体习得并组合底层运动技能是一个悬而未决的难题。

本帖子中包含更多资源

相关帖子