谷歌全新压缩算法:TurboQuant,将LLM键值缓存内存减少了6倍,速度提升了8倍,零精度损失,无需训练

谷歌全新压缩算法:TurboQuant,将LLM键值缓存内存减少了6倍,速度提升了8倍,零精度损失,无需训练

AI模型使用高维向量来处理信息,但这些向量非常消耗内存,特别是在KV cache中

传统向量量化:
量化本身能压缩数据,但需要存储额外的量化常数
这些常数通常用全精度存储,每个数额外开销1-2 bit
部分抵消了压缩的意义

TurboQuant的方法:
1. PolarQuant(角度压缩)
随机旋转数据后,将X/Y/Z坐标转为"角度+半径"
角度分布范围固定可预测,省掉边界存储的额外开销

2. QJL(1 bit纠错)
第一步压缩后存在残余误差
QJL用Johnson-Lindenstrauss变换降维后,以1 bit(+1/-1)符号量化,通过特殊估计器无偏重建,实现零开销误差修正

在GloVe数据集上,召回率优于PQ、RabbiQ等
LongBench(长文本问答、代码、摘要),全面领先

可以用到任何需要向量量化的场景,数据库、推荐系统等

博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?utm_source=twitter&utm_medium=social&utm_campaign=social_post&utm_content=gr-acct

##
分类