在高效注意力机制领域,如何让每个 token 以线性代价触达序列全局,是一个长期未解的难题。滑动窗口注意力(SWA)将感受野锁死在局部窗口内,ℓ 层后仅能覆盖 ℓw 个位置;要跨越这一瓶颈,现有方案不得不引入全局 token、手工稀疏模式或块级路由等额外复杂度。
本文的核心洞见是:把"固定邻居"重新看作"随机邻居"。在每层注意力计算前,对 token 序列施加一次独立均匀随机排列,窗口注意力结束后还原原序。这一操作使原本相距遥远的 token 以概率 w/n 成为彼此的局部邻居,每层独立采样的排列在深度方向产生指数级感受野扩张,仅需 O(log_w n) 层即可覆盖全序列,而非 SWA 所需的 O(n/w) 层。与 SWA 通过门控融合后,两者分别扮演果蝇连接组中"密集局部聚类"与"分布式长程捷径"的角色,精确复现了小世界网络拓扑。
这项工作真正留下的遗产是:证明了"排列"这一零参数操作足以将任意线性注意力核提升为近似全局路由器。它为后来者打开的新门是:将随机置换作为即插即用原语嵌入已有高效注意力框架,无需重新训练预训练模型即可获得显著的长程推理收益。但尚未跨过的门槛是:随机性在推理时引入不确定性,且单独使用时局部语言建模质量下降,如何在确定性部署场景中保留其全局覆盖优势,仍是待解之题。
arxiv.org/abs/2604.00754
#机器学习# #人工智能# #论文# #AI创造营#