找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 6|回复: 0

月之暗面Kimi 发了篇新论文: Attention Residuals github.com/MoonshotAI/Attention-Residuals 将注意力旋转90°~~

[复制链接]

11

主题

1

回帖

35

积分

新手上路

积分
35
发表于 昨天 20:25 来自手机 | 显示全部楼层 |阅读模式
@月之暗面Kimi 发了篇新论文: Attention Residuals
github.com/MoonshotAI/Attention-Residuals
将注意力旋转90°~~
论文介绍了一种名为 Attention Residuals (AttnRes) 的全新深度网络架构组件,它重构了 Transformer 模型在深度方向上的信息流动方式 。
传统残差连接采用固定权重进行信息累加。而这种方法引入了学习到的、依赖于输入内容的 softmax 注意力机制,这种设计赋予了神经网络在每一层动态检索和选择性聚合所有历史层输出的能力,完成了在“深度”维度上从线性循环向自注意力的范式转变。

该方法已经在 Kimi Linear 架构中得到了验证。
#How I AI#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-17 07:23 , Processed in 0.824623 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表