在序列建模领域，记忆与效率的两难悬而未决。RNN用定长记忆压缩历史，越长越遗忘

萬國兵 · 发表于 2026-3-3 06:17:59

[LG]《Memory Caching: RNNs with Growing Memory》A Behrouz, Z Li, Y Deng, P Zhong… [Google Research] (2026)

在序列建模领域，记忆与效率的两难悬而未决。RNN用定长记忆压缩历史，越长越遗忘；Transformer缓存全部token，代价是二次方复杂度。症结在于：记忆增长只有恒定与平方两个极端，中间地带无人开垦。

核心洞见：把RNN的隐状态重新看作优化过程的检查点，而非一次性摘要。将序列分段、缓存每段末尾的记忆快照，后续token同时查询在线记忆与全部历史存档——这一操作让记忆容量随段数可控增长，复杂度在两极之间自由插值。

这项工作留下一个干净的复杂度旋钮——段长即压缩粒度，段数即记忆预算。它让循环模型无需全局注意力便可逼近Transformer的召回能力。但最难检索任务上差距仍存，最优分段策略仍靠启发式而非理论保证。

arxiv.org/abs/2602.24281 #

在序列建模领域，记忆与效率的两难悬而未决。RNN用定长记忆压缩历史，越长越遗忘

本帖子中包含更多资源

相关帖子