查看: 4|回复: 0

谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害

[复制链接]

11

主题

0

回帖

53

积分

注册会员

积分
53
发表于 2 小时前 来自手机 | 显示全部楼层 |阅读模式
谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害

怪不得昨晚美股存储跌了,有点类似DeepSeek的冲击。算法加速,让硬件资源效率大幅提升。这个TurboQuant算法感觉会流行起来。

我一开始以为是,对内存中的大模型“KV缓存”(80%内存都是这个东西占了)搞个什么6倍的压缩算法,这样内存就可以少用了。但是要解压花时间,就是时间换空间,这么一种折衷的办法。

但这论文牛逼之处在于,居然时间计算都加速了!完全就是算法革命性进步。具体来说,传统FP16的数据,它给弄成3.5比特, 4.57倍内存压缩,计算效果完全一样!大模型推理质量完全没损失!这就太神奇了。而计算速度,由于LLM推理主要时间是花在内存搬运上,它这个要搬的内存少了,还能加速!理论评估是,通过减少 HBM 通信量和避免离线预处理,可提升长序列生成吞吐3-5倍!

如果想再省内存,用2.5比特,能比FP16实现 6.4倍压缩!大模型推理质量只下降一点点。

算法原理是向量量化(Vector Quantization, VQ),其实非常基础,是信息论和机器学习中的基础问题,与香农的信源编码理论有关。目标是将高维浮点向量压缩为低比特整数表示,同时最小化几何结构失真(如MSE或内积误差)。

这个感觉上确实合理,因为大模型生成的KV缓存,里面都是高维浮点数,冗余很多。其实代表的结构,不用那么多维,就可以表征了。但如何找到压缩办法,让大模型计算性能不受影响,这需要想出具体的数学办法。

论文是2025年4月出的,后面要工程实践结合到更大规模的大模型上,已经有些进展。2026年条件应该成熟多了,内存也极度短缺。感觉推理肯定会发生算法革命,都用这个TurboQuant或者类似的优化方法,就如DeepSeek开源的一些优化方法成为标配了。同样参数规模的模型,占用内存大幅减少,存储股下跌。但又可能因为“杰文斯悖论”,成本低了,但模型参数暴增、模型部署的数量暴增,内存需求反而大增。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部