查看: 1|回复: 0

神经网络持久结构化记忆中的坐标系问题

[复制链接]

14

主题

2

回帖

56

积分

注册会员

积分
56
发表于 昨天 22:31 | 显示全部楼层 |阅读模式
我们提出了双视图信息素路径网络(DPPN),这是一种通过潜在槽位(latent slot)转换上的**持久信息素场(persistent pheromone field)**来路由稀疏注意力的架构。利用该架构,我们发现了神经网络实现持久结构化记忆的两个独立必要条件。
通过 5 组逐步完善的实验(涵盖 5 种模型变体、4 个迁移目标,且每种条件下使用多达 10 个随机种子),我们确定了一个核心原则:持久记忆需要稳定的坐标系,而任何与模型联合训练(从零学习)的坐标系本质上都是不稳定的。
我们刻画了三个障碍:信息素饱和(pheromone saturation)、表层结构纠缠(surface-structure entanglement)以及坐标不兼容(coordinate incompatibility)。实验表明,当嵌入(embeddings)是从头开始学习时,无论是对比更新、多源蒸馏、匈牙利对齐还是语义分解,都无法解决这种不稳定性。
虽然固定随机傅里叶特征(Fixed random Fourier features)能提供稳定、结构无关且信息丰富的外在坐标(extrinsic coordinates),但仅靠坐标稳定性是不够的:**路由偏差信息素(routing-bias pheromone)**无法进行迁移(10 个种子实验,p>0.05)。在任务内学习方面,DPPN 的表现优于 Transformer 和随机稀疏基准(AULC 为 0.700 对比 0.680 和 0.670)。
通过将路由偏差替换为学习率调制(learning-rate modulation),我们消除了负迁移效应:将“热信息素”作为学习率先验,在同族任务中实现了 +0.003 的提升(17 个种子实验,p<0.05),且从未降低性能。此外,在外在坐标上应用结构补全函数,在正则化之外额外获得了 +0.006 的同族任务奖励。这表明,“稳定性”与“信息丰富度”之间的两难境地(catch-22)可以通过学习函数部分化解。
本研究的贡献在于提出了持久结构化记忆的两个独立要求:(a) 坐标稳定性 和 (b) 优雅的迁移机制。


核心术语速览:
  • Pheromone Pathway: 信息素路径(借用生物学概念,指代路径权重或记忆痕迹)。
  • Latent Slot Transitions: 潜在槽位转换。
  • Extrinsic Coordinates: 外在坐标(指不由模型参数决定的参考系)。
  • Catch-22: 左右为难 / 进退两难。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部