大型语言模型中,残差连接以固定权重均匀叠加所有层的输出,导致隐藏状态幅值随深度线性膨胀。深层网络被迫输出越来越大的值才能保持影响力,早期层的信息被淹没且无法被选择性召回——这是PreNorm架构的结构性缺陷,而非训练技巧可以修补的问题。
本文的核心洞见是:把跨层信息聚合重新看作一种注意力检索问题。残差连接本质上是对深度维度的线性注意力,那么完全可以将其升级为softmax注意力——每层用一个可学习的伪查询向量,对所有前驱层的输出计算归一化权重后加权求和。为解决全注意力在大规模训练中的显存与通信开销,将层分组为块、仅对块级摘要做跨块注意力,配合缓存流水线通信与两阶段计算,使开销控制在推理延迟增加不足2%。
这项工作真正留下的遗产是:证明深度维度的信息聚合与序列维度遵循相同的演化路径——从固定权重到可学习权重,再到输入相关的注意力机制,且这一升级在规模律实验中持续有效。它为后来者打开的新门是:深度维度注意力与序列维度注意力的统一框架,以及更优的深度架构设计偏好。但尚未跨过的门槛是:全注意力变体在当前硬件的显存墙面前仍受制于块粒度的近似,其完整潜力有待未来互联带宽改善后才能释放。
arxiv.org/abs/2603.15031
##