谷歌全新压缩算法：TurboQuant，将LLM键值缓存内存减少了6倍，速度提升了8倍，零精度损失，无需训练

青青小草

2026-03-25 12:45:50

谷歌全新压缩算法：TurboQuant，将LLM键值缓存内存减少了6倍，速度提升了8倍，零精度损失，无需训练

AI模型使用高维向量来处理信息，但这些向量非常消耗内存，特别是在KV cache中

传统向量量化：
量化本身能压缩数据，但需要存储额外的量化常数
这些常数通常用全精度存储，每个数额外开销1-2 bit
部分抵消了压缩的意义

TurboQuant的方法：
1. PolarQuant（角度压缩）
随机旋转数据后，将X/Y/Z坐标转为"角度+半径"
角度分布范围固定可预测，省掉边界存储的额外开销

2. QJL（1 bit纠错）
第一步压缩后存在残余误差
QJL用Johnson-Lindenstrauss变换降维后，以1 bit（+1/-1）符号量化，通过特殊估计器无偏重建，实现零开销误差修正

在GloVe数据集上，召回率优于PQ、RabbiQ等
LongBench（长文本问答、代码、摘要），全面领先

可以用到任何需要向量量化的场景，数据库、推荐系统等

博客：https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?utm_source=twitter&utm_medium=social&utm_campaign=social_post&utm_content=gr-acct

##

相关阅读