查看: 102|回复: 0

在序列建模领域,记忆与效率的两难悬而未决。RNN用定长记忆压缩历史,越长越遗忘

[复制链接]

13

主题

0

回帖

39

积分

新手上路

积分
39
发表于 2026-3-3 06:17:59 | 显示全部楼层 |阅读模式
[LG]《Memory Caching: RNNs with Growing Memory》A Behrouz, Z Li, Y Deng, P Zhong… [Google Research] (2026)


在序列建模领域,记忆与效率的两难悬而未决。RNN用定长记忆压缩历史,越长越遗忘;Transformer缓存全部token,代价是二次方复杂度。症结在于:记忆增长只有恒定与平方两个极端,中间地带无人开垦。

核心洞见:把RNN的隐状态重新看作优化过程的检查点,而非一次性摘要。将序列分段、缓存每段末尾的记忆快照,后续token同时查询在线记忆与全部历史存档——这一操作让记忆容量随段数可控增长,复杂度在两极之间自由插值。

这项工作留下一个干净的复杂度旋钮——段长即压缩粒度,段数即记忆预算。它让循环模型无需全局注意力便可逼近Transformer的召回能力。但最难检索任务上差距仍存,最优分段策略仍靠启发式而非理论保证。

















arxiv.org/abs/2602.24281 #

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部