神经网络持久结构化记忆中的坐标系问题

西域·骆驼 · 发表于 2026-3-25 22:31:02

我们提出了双视图信息素路径网络（DPPN），这是一种通过潜在槽位（latent slot）转换上的**持久信息素场（persistent pheromone field）**来路由稀疏注意力的架构。利用该架构，我们发现了神经网络实现持久结构化记忆的两个独立必要条件。
通过 5 组逐步完善的实验（涵盖 5 种模型变体、4 个迁移目标，且每种条件下使用多达 10 个随机种子），我们确定了一个核心原则：持久记忆需要稳定的坐标系，而任何与模型联合训练（从零学习）的坐标系本质上都是不稳定的。
我们刻画了三个障碍：信息素饱和（pheromone saturation）、表层结构纠缠（surface-structure entanglement）以及坐标不兼容（coordinate incompatibility）。实验表明，当嵌入（embeddings）是从头开始学习时，无论是对比更新、多源蒸馏、匈牙利对齐还是语义分解，都无法解决这种不稳定性。
虽然固定随机傅里叶特征（Fixed random Fourier features）能提供稳定、结构无关且信息丰富的外在坐标（extrinsic coordinates），但仅靠坐标稳定性是不够的：**路由偏差信息素（routing-bias pheromone）**无法进行迁移（10 个种子实验，p>0.05）。在任务内学习方面，DPPN 的表现优于 Transformer 和随机稀疏基准（AULC 为 0.700 对比 0.680 和 0.670）。
通过将路由偏差替换为学习率调制（learning-rate modulation），我们消除了负迁移效应：将“热信息素”作为学习率先验，在同族任务中实现了 +0.003 的提升（17 个种子实验，p<0.05），且从未降低性能。此外，在外在坐标上应用结构补全函数，在正则化之外额外获得了 +0.006 的同族任务奖励。这表明，“稳定性”与“信息丰富度”之间的两难境地（catch-22）可以通过学习函数部分化解。
本研究的贡献在于提出了持久结构化记忆的两个独立要求：(a) 坐标稳定性和 (b) 优雅的迁移机制。

核心术语速览：

Pheromone Pathway: 信息素路径（借用生物学概念，指代路径权重或记忆痕迹）。
Latent Slot Transitions: 潜在槽位转换。
Extrinsic Coordinates: 外在坐标（指不由模型参数决定的参考系）。
Catch-22: 左右为难 / 进退两难。