github.com/MoonshotAI/Attention-Residuals
将注意力旋转90°~~
论文介绍了一种名为 Attention Residuals (AttnRes) 的全新深度网络架构组件,它重构了 Transformer 模型在深度方向上的信息流动方式 。
传统残差连接采用固定权重进行信息累加。而这种方法引入了学习到的、依赖于输入内容的 softmax 注意力机制,这种设计赋予了神经网络在每一层动态检索和选择性聚合所有历史层输出的能力,完成了在“深度”维度上从线性循环向自注意力的范式转变。
该方法已经在 Kimi Linear 架构中得到了验证。
#How I AI#