智能的本质在于对时间的抽象。

春运 · 发表于 2026-2-25 06:22:46

[LG]《Compositional Planning with Jumpy World Models》J Farebrother, M Pirotta, A Tirinzoni, M G. Bellemare... [FAIR at Meta & Mila – Québec AI Institute] (2026)

智能的本质在于对时间的抽象。

为什么即便拥有了强大的预训练基础策略，机器人依然难以解决复杂的长程任务？本文给出了答案：因为我们一直试图在原子动作层面进行规划，而真正的智能应该学会组合行为。

以下是这项研究的核心洞察与深度思考。

规划的尺度决定了智能的高度。传统的规划算法往往在原始动作空间中挣扎，随着任务跨度的增加，预测误差会呈指数级复合。这项研究提出了 CompPlan 框架，其核心逻辑是：不再规划动作，而是规划策略的序列。将预训练的策略视为一个个时间上延伸的积木，通过跳跃式世界模型进行组合，从而在不需要任何任务特定训练的情况下，解决单体策略无法完成的复杂难题。

什么是跳跃世界模型。传统的动力学模型预测的是下一帧，而跳跃世界模型预测的是后继度量。它不关注下一秒的精确坐标，而是预测：如果持续执行某个策略，智能体最终会落在状态空间的哪个分布中。这种从点到分布、从瞬时到时段的跨越，让模型具备了跨越时间鸿沟的能力。

地平线一致性是长程预测的锚点。预测越远，幻觉越多。研究者引入了一种全新的地平线一致性目标，通过强制不同时间尺度下的预测保持逻辑自洽，实现了长程预测精度的飞跃。这就像是给模型装上了一把标尺，确保它在构思远方蓝图时，不会偏离物理现实的基准。

策略的价值在于其可组合性。实验发现了一个有趣的现象：一个策略在独立评估时的零样本表现，并不能代表它的全部价值。许多看似平庸的策略，一旦作为组件放入 CompPlan 框架中，就能展现出惊人的协作潜力。这启发我们，通用人工智能的路径或许不在于追求一个全能的单体，而在于构建一个能够理解并调度各种专业行为的指挥系统。

性能的量级突破。在挑战性的机械臂操作和迷宫导航任务中，CompPlan 相比传统的原子动作规划实现了平均 200% 的性能提升。它不仅超越了现有的分层强化学习方法，更证明了在行为层面进行规划是通往长程决策的捷径。

深度思考：从动作到行为的转变，本质上是决策维度的压缩。当我们将策略视为规划的基元时，搜索空间的复杂性被极大地降低了。智能不再是枯燥的数值优化，而变成了行为艺术的剪辑与重组。

未来的决策智能将不再依赖于对每一个微小动作的精确控制，而是源于对宏观行为趋势的深刻洞察。CompPlan 为我们展示了一个无需微调、即插即用的组合规划未来。

arxiv.org/abs/2602.19634

智能的本质在于对时间的抽象。

本帖子中包含更多资源