找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

智能的本质在于对时间的抽象。

[复制链接]

3

主题

0

回帖

9

积分

新手上路

积分
9
发表于 4 小时前 来自手机 | 显示全部楼层 |阅读模式
[LG]《Compositional Planning with Jumpy World Models》J Farebrother, M Pirotta, A Tirinzoni, M G. Bellemare... [FAIR at Meta & Mila – Québec AI Institute] (2026)

智能的本质在于对时间的抽象。

为什么即便拥有了强大的预训练基础策略,机器人依然难以解决复杂的长程任务?本文给出了答案:因为我们一直试图在原子动作层面进行规划,而真正的智能应该学会组合行为。

以下是这项研究的核心洞察与深度思考。

规划的尺度决定了智能的高度。传统的规划算法往往在原始动作空间中挣扎,随着任务跨度的增加,预测误差会呈指数级复合。这项研究提出了 CompPlan 框架,其核心逻辑是:不再规划动作,而是规划策略的序列。将预训练的策略视为一个个时间上延伸的积木,通过跳跃式世界模型进行组合,从而在不需要任何任务特定训练的情况下,解决单体策略无法完成的复杂难题。

什么是跳跃世界模型。传统的动力学模型预测的是下一帧,而跳跃世界模型预测的是后继度量。它不关注下一秒的精确坐标,而是预测:如果持续执行某个策略,智能体最终会落在状态空间的哪个分布中。这种从点到分布、从瞬时到时段的跨越,让模型具备了跨越时间鸿沟的能力。

地平线一致性是长程预测的锚点。预测越远,幻觉越多。研究者引入了一种全新的地平线一致性目标,通过强制不同时间尺度下的预测保持逻辑自洽,实现了长程预测精度的飞跃。这就像是给模型装上了一把标尺,确保它在构思远方蓝图时,不会偏离物理现实的基准。

策略的价值在于其可组合性。实验发现了一个有趣的现象:一个策略在独立评估时的零样本表现,并不能代表它的全部价值。许多看似平庸的策略,一旦作为组件放入 CompPlan 框架中,就能展现出惊人的协作潜力。这启发我们,通用人工智能的路径或许不在于追求一个全能的单体,而在于构建一个能够理解并调度各种专业行为的指挥系统。

性能的量级突破。在挑战性的机械臂操作和迷宫导航任务中,CompPlan 相比传统的原子动作规划实现了平均 200% 的性能提升。它不仅超越了现有的分层强化学习方法,更证明了在行为层面进行规划是通往长程决策的捷径。

深度思考:从动作到行为的转变,本质上是决策维度的压缩。当我们将策略视为规划的基元时,搜索空间的复杂性被极大地降低了。智能不再是枯燥的数值优化,而变成了行为艺术的剪辑与重组。

未来的决策智能将不再依赖于对每一个微小动作的精确控制,而是源于对宏观行为趋势的深刻洞察。CompPlan 为我们展示了一个无需微调、即插即用的组合规划未来。

arxiv.org/abs/2602.19634


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-25 11:09 , Processed in 0.164716 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表