谷歌新型缓存技术将压缩6倍闪存需求

爱深求 · 发表于 2026-3-26 16:44:21

【#谷歌新型缓存技术将压缩6倍闪存需求#】近期，谷歌发布了名为TurboQuant的 KV 缓存压缩技术，旨在解决大语言模型（LLM）推理过程中显存占用过高的问题。该技术核心在于无需重新训练或微调模型，即可将键值缓存（KV Cache）压缩至3-bit精度，实现约6倍的闪存节省，同时在英伟达 H100 等加速器上可将推理速度提升最高8倍。这项技术主要针对长上下文场景下的内存瓶颈，已在 Gemma、Mistral 等开源模型上完成验证，并计划于2026年 4月的ICLR会议上正式展示。（来源：财联社）
http://t.cn/AXfegoyP