查看: 3|回复: 0

谷歌全新压缩算法:TurboQuant,将LLM键值缓存内存减少了6倍,速度提升了8倍,零精度损失,无需训练

[复制链接]

6

主题

0

回帖

18

积分

新手上路

积分
18
发表于 2 小时前 来自手机 | 显示全部楼层 |阅读模式
谷歌全新压缩算法:TurboQuant,将LLM键值缓存内存减少了6倍,速度提升了8倍,零精度损失,无需训练

AI模型使用高维向量来处理信息,但这些向量非常消耗内存,特别是在KV cache中

传统向量量化:
量化本身能压缩数据,但需要存储额外的量化常数
这些常数通常用全精度存储,每个数额外开销1-2 bit
部分抵消了压缩的意义

TurboQuant的方法:
1. PolarQuant(角度压缩)
随机旋转数据后,将X/Y/Z坐标转为"角度+半径"
角度分布范围固定可预测,省掉边界存储的额外开销

2. QJL(1 bit纠错)
第一步压缩后存在残余误差
QJL用Johnson-Lindenstrauss变换降维后,以1 bit(+1/-1)符号量化,通过特殊估计器无偏重建,实现零开销误差修正

在GloVe数据集上,召回率优于PQ、RabbiQ等
LongBench(长文本问答、代码、摘要),全面领先

可以用到任何需要向量量化的场景,数据库、推荐系统等

博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?utm_source=twitter&utm_medium=social&utm_campaign=social_post&utm_content=gr-acct

##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部