找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1|回复: 0

在序列建模领域,记忆与效率的两难悬而未决。RNN用定长记忆压缩历史,越长越遗忘

[复制链接]

6

主题

0

回帖

18

积分

新手上路

积分
18
发表于 2 小时前 | 显示全部楼层 |阅读模式
[LG]《Memory Caching: RNNs with Growing Memory》A Behrouz, Z Li, Y Deng, P Zhong… [Google Research] (2026)


在序列建模领域,记忆与效率的两难悬而未决。RNN用定长记忆压缩历史,越长越遗忘;Transformer缓存全部token,代价是二次方复杂度。症结在于:记忆增长只有恒定与平方两个极端,中间地带无人开垦。

核心洞见:把RNN的隐状态重新看作优化过程的检查点,而非一次性摘要。将序列分段、缓存每段末尾的记忆快照,后续token同时查询在线记忆与全部历史存档——这一操作让记忆容量随段数可控增长,复杂度在两极之间自由插值。

这项工作留下一个干净的复杂度旋钮——段长即压缩粒度,段数即记忆预算。它让循环模型无需全局注意力便可逼近Transformer的召回能力。但最难检索任务上差距仍存,最优分段策略仍靠启发式而非理论保证。

















arxiv.org/abs/2602.24281 #

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-3 08:54 , Processed in 0.177910 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表