在高效注意力机制领域，如何让每个 token 以线性代价触达序列全局，是一个长期未解的难题。

罗丽 · 发表于 2026-4-3 07:56:13

[CL]《Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention》Z Jin, Y Sui [Tsinghua University] (2026)

在高效注意力机制领域，如何让每个 token 以线性代价触达序列全局，是一个长期未解的难题。滑动窗口注意力（SWA）将感受野锁死在局部窗口内，ℓ 层后仅能覆盖 ℓw 个位置；要跨越这一瓶颈，现有方案不得不引入全局 token、手工稀疏模式或块级路由等额外复杂度。

本文的核心洞见是：把"固定邻居"重新看作"随机邻居"。在每层注意力计算前，对 token 序列施加一次独立均匀随机排列，窗口注意力结束后还原原序。这一操作使原本相距遥远的 token 以概率 w/n 成为彼此的局部邻居，每层独立采样的排列在深度方向产生指数级感受野扩张，仅需 O(log_w n) 层即可覆盖全序列，而非 SWA 所需的 O(n/w) 层。与 SWA 通过门控融合后，两者分别扮演果蝇连接组中"密集局部聚类"与"分布式长程捷径"的角色，精确复现了小世界网络拓扑。

这项工作真正留下的遗产是：证明了"排列"这一零参数操作足以将任意线性注意力核提升为近似全局路由器。它为后来者打开的新门是：将随机置换作为即插即用原语嵌入已有高效注意力框架，无需重新训练预训练模型即可获得显著的长程推理收益。但尚未跨过的门槛是：随机性在推理时引入不确定性，且单独使用时局部语言建模质量下降，如何在确定性部署场景中保留其全局覆盖优势，仍是待解之题。

arxiv.org/abs/2604.00754

#机器学习# #人工智能# #论文# #AI创造营#

在高效注意力机制领域，如何让每个 token 以线性代价触达序列全局，是一个长期未解的难题。

本帖子中包含更多资源