查看: 5|回复: 0

在高效注意力机制领域,如何让每个 token 以线性代价触达序列全局,是一个长期未解的难题。

[复制链接]

15

主题

0

回帖

45

积分

新手上路

积分
45
发表于 昨天 07:56 | 显示全部楼层 |阅读模式
[CL]《Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention》Z Jin, Y Sui [Tsinghua University] (2026)


在高效注意力机制领域,如何让每个 token 以线性代价触达序列全局,是一个长期未解的难题。滑动窗口注意力(SWA)将感受野锁死在局部窗口内,ℓ 层后仅能覆盖 ℓw 个位置;要跨越这一瓶颈,现有方案不得不引入全局 token、手工稀疏模式或块级路由等额外复杂度。

本文的核心洞见是:把"固定邻居"重新看作"随机邻居"。在每层注意力计算前,对 token 序列施加一次独立均匀随机排列,窗口注意力结束后还原原序。这一操作使原本相距遥远的 token 以概率 w/n 成为彼此的局部邻居,每层独立采样的排列在深度方向产生指数级感受野扩张,仅需 O(log_w n) 层即可覆盖全序列,而非 SWA 所需的 O(n/w) 层。与 SWA 通过门控融合后,两者分别扮演果蝇连接组中"密集局部聚类"与"分布式长程捷径"的角色,精确复现了小世界网络拓扑。

这项工作真正留下的遗产是:证明了"排列"这一零参数操作足以将任意线性注意力核提升为近似全局路由器。它为后来者打开的新门是:将随机置换作为即插即用原语嵌入已有高效注意力框架,无需重新训练预训练模型即可获得显著的长程推理收益。但尚未跨过的门槛是:随机性在推理时引入不确定性,且单独使用时局部语言建模质量下降,如何在确定性部署场景中保留其全局覆盖优势,仍是待解之题。

arxiv.org/abs/2604.00754

#机器学习# #人工智能# #论文# #AI创造营#




















本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部