怪不得昨晚美股存储跌了,有点类似DeepSeek的冲击。算法加速,让硬件资源效率大幅提升。这个TurboQuant算法感觉会流行起来。
我一开始以为是,对内存中的大模型“KV缓存”(80%内存都是这个东西占了)搞个什么6倍的压缩算法,这样内存就可以少用了。但是要解压花时间,就是时间换空间,这么一种折衷的办法。
但这论文牛逼之处在于,居然时间计算都加速了!完全就是算法革命性进步。具体来说,传统FP16的数据,它给弄成3.5比特, 4.57倍内存压缩,计算效果完全一样!大模型推理质量完全没损失!这就太神奇了。而计算速度,由于LLM推理主要时间是花在内存搬运上,它这个要搬的内存少了,还能加速!理论评估是,通过减少 HBM 通信量和避免离线预处理,可提升长序列生成吞吐3-5倍!
如果想再省内存,用2.5比特,能比FP16实现 6.4倍压缩!大模型推理质量只下降一点点。
算法原理是向量量化(Vector Quantization, VQ),其实非常基础,是信息论和机器学习中的基础问题,与香农的信源编码理论有关。目标是将高维浮点向量压缩为低比特整数表示,同时最小化几何结构失真(如MSE或内积误差)。
这个感觉上确实合理,因为大模型生成的KV缓存,里面都是高维浮点数,冗余很多。其实代表的结构,不用那么多维,就可以表征了。但如何找到压缩办法,让大模型计算性能不受影响,这需要想出具体的数学办法。
论文是2025年4月出的,后面要工程实践结合到更大规模的大模型上,已经有些进展。2026年条件应该成熟多了,内存也极度短缺。感觉推理肯定会发生算法革命,都用这个TurboQuant或者类似的优化方法,就如DeepSeek开源的一些优化方法成为标配了。同样参数规模的模型,占用内存大幅减少,存储股下跌。但又可能因为“杰文斯悖论”,成本低了,但模型参数暴增、模型部署的数量暴增,内存需求反而大增。