大语言模型推理时，KV缓存随序列长度线性膨胀，已成为长上下文场景的内存瓶颈。

ouyang2008 · 发表于昨天 09:34

[LG]《TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization》D Patel [LLMs Research Inc.] (2026)

大语言模型推理时，KV缓存随序列长度线性膨胀，已成为长上下文场景的内存瓶颈。现有量化方法直接压缩原始激活值，却面临离群值、通道分布差异和非高斯分布三重困境，不得不依赖逐通道校准数据来补偿——这在频繁更新模型或边缘部署场景中代价高昂。

本文的核心洞见是：把"如何均匀量化分布不规则的数值"重新看作"先找到一个分布天然均匀的坐标系，再用最优量化器"。具体操作是在随机符号旋转后施加快速Walsh-Hadamard变换，使相邻元素对的角度在单位圆上趋近均匀分布——均匀分布对应的最优量化器恰好就是等间隔划分，无需任何校准。进一步地，对各层独立配置K/V码本大小，并对K范数用8位线性量化、对V范数用4位对数空间量化，形成零校准的端到端压缩方案。

这项工作真正留下的遗产是：证明了"构造分布已知的变换域"可以将校准需求彻底清零，同时揭示了K缓存范数比V缓存范数敏感10—20倍这一此前未被报告的不对称性。它为后来者打开的新门是：基于理论分布而非经验统计来设计量化器的方法论路径。但尚未跨过的门槛是：仅用困惑度在单一数据集上评估，下游任务表现与长上下文基准仍是未解之题。

arxiv.org/abs/2603.27467

##

大语言模型推理时，KV缓存随序列长度线性膨胀，已成为长上下文场景的内存瓶颈。

本帖子中包含更多资源

相关帖子