查看: 102|回复: 0

在长时序稀疏奖励的强化学习领域,让智能体习得并组合底层运动技能是一个悬而未决的难题。

[复制链接]

10

主题

0

回帖

40

积分

新手上路

积分
40
发表于 2026-3-12 13:45:54 | 显示全部楼层 |阅读模式
[LG]《SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding》R Zabounidis, Y Wu, S Stepputtis, W Kim… [CMU & Virginia Tech] (2026)


在长时序稀疏奖励的强化学习领域,让智能体习得并组合底层运动技能是一个悬而未决的难题。过去的方法让大语言模型一次性生成奖励函数或技能规格,但LLM的先验知识往往存在偏差——它不知道游戏里炼铁只需1块铁矿而非3块——错误无从纠正,训练因此失败。

本文的核心洞见是:把LLM的技能提议视为待验证的假设而非最终答案。由此,"轨迹分析"这一关键操作使问题得以解开:当RL策略首次成功执行某技能时,系统将成功轨迹的起止状态和完整过程反馈给LLM,令其自动修正前提条件和资源消耗量。实验表明,这一机制将前驱技能的资源估算误差削减了50%至67%,让原本成功率为0%的任务(如种植采食)提升至92%。

这项工作真正留下的遗产是:证明了"LLM规划+RL执行"的闭环反馈比任何一端的单独努力都更强大,在Craftax上将钻石采集率从47%提升至88%,并首次突破地精矿洞(9%,基线为0%)。它为后来者打开的新门是——将在线轨迹分析用于运行时适应,当环境规则改变时无需人工介入即可自动修复技能规格。但尚未跨过的门槛是:系统依赖预定义的符号状态空间,技能执行顺序固定,且Frontier Checkpointing需要环境状态可序列化,三条约束共同限制了其向真实世界的迁移。

arxiv.org/abs/2603.09036













































#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部