在序列建模领域,记忆与效率的两难悬而未决。RNN用定长记忆压缩历史,越长越遗忘;Transformer缓存全部token,代价是二次方复杂度。症结在于:记忆增长只有恒定与平方两个极端,中间地带无人开垦。
核心洞见:把RNN的隐状态重新看作优化过程的检查点,而非一次性摘要。将序列分段、缓存每段末尾的记忆快照,后续token同时查询在线记忆与全部历史存档——这一操作让记忆容量随段数可控增长,复杂度在两极之间自由插值。
这项工作留下一个干净的复杂度旋钮——段长即压缩粒度,段数即记忆预算。它让循环模型无需全局注意力便可逼近Transformer的召回能力。但最难检索任务上差距仍存,最优分段策略仍靠启发式而非理论保证。
arxiv.org/abs/2602.24281 #