查看: 12|回复: 0

大语言模型推理时,KV缓存随序列长度线性膨胀,已成为长上下文场景的内存瓶颈。

[复制链接]

12

主题

0

回帖

46

积分

新手上路

积分
46
发表于 昨天 09:34 | 显示全部楼层 |阅读模式
[LG]《TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization》D Patel [LLMs Research Inc.] (2026)


大语言模型推理时,KV缓存随序列长度线性膨胀,已成为长上下文场景的内存瓶颈。现有量化方法直接压缩原始激活值,却面临离群值、通道分布差异和非高斯分布三重困境,不得不依赖逐通道校准数据来补偿——这在频繁更新模型或边缘部署场景中代价高昂。

本文的核心洞见是:把"如何均匀量化分布不规则的数值"重新看作"先找到一个分布天然均匀的坐标系,再用最优量化器"。具体操作是在随机符号旋转后施加快速Walsh-Hadamard变换,使相邻元素对的角度在单位圆上趋近均匀分布——均匀分布对应的最优量化器恰好就是等间隔划分,无需任何校准。进一步地,对各层独立配置K/V码本大小,并对K范数用8位线性量化、对V范数用4位对数空间量化,形成零校准的端到端压缩方案。

这项工作真正留下的遗产是:证明了"构造分布已知的变换域"可以将校准需求彻底清零,同时揭示了K缓存范数比V缓存范数敏感10—20倍这一此前未被报告的不对称性。它为后来者打开的新门是:基于理论分布而非经验统计来设计量化器的方法论路径。但尚未跨过的门槛是:仅用困惑度在单一数据集上评估,下游任务表现与长上下文基准仍是未解之题。

arxiv.org/abs/2603.27467

##




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部