[CL]《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… [Kimi Team] (2026)

高原蓝

2026-03-22 12:05:02

《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… (2026)

大型语言模型中，残差连接以固定权重均匀叠加所有层的输出，导致隐藏状态幅值随深度线性膨胀。深层网络被迫输出越来越大的值才能保持影响力，早期层的信息被淹没且无法被选择性召回——这是PreNorm架构的结构性缺陷，而非训练技巧可以修补的问题。

本文的核心洞见是：把跨层信息聚合重新看作一种注意力检索问题。残差连接本质上是对深度维度的线性注意力，那么完全可以将其升级为softmax注意力——每层用一个可学习的伪查询向量，对所有前驱层的输出计算归一化权重后加权求和。为解决全注意力在大规模训练中的显存与通信开销，将层分组为块、仅对块级摘要做跨块注意力，配合缓存流水线通信与两阶段计算，使开销控制在推理延迟增加不足2%。

这项工作真正留下的遗产是：证明深度维度的信息聚合与序列维度遵循相同的演化路径——从固定权重到可学习权重，再到输入相关的注意力机制，且这一升级在规模律实验中持续有效。它为后来者打开的新门是：深度维度注意力与序列维度注意力的统一框架，以及更优的深度架构设计偏好。但尚未跨过的门槛是：全注意力变体在当前硬件的显存墙面前仍受制于块粒度的近似，其完整潜力有待未来互联带宽改善后才能释放。

arxiv.org/abs/2603.15031

相关阅读