查看: 2|回复: 0

谷歌新型缓存技术将压缩6倍闪存需求

[复制链接]

14

主题

1

回帖

44

积分

新手上路

积分
44
发表于 3 小时前 来自手机 | 显示全部楼层 |阅读模式
【#谷歌新型缓存技术将压缩6倍闪存需求#】近期,谷歌发布了名为TurboQuant的 KV 缓存压缩技术,旨在解决大语言模型(LLM)推理过程中显存占用过高的问题。该技术核心在于无需重新训练或微调模型,即可将键值缓存(KV Cache)压缩至3-bit精度,实现约6倍的闪存节省,同时在英伟达 H100 等加速器上可将推理速度提升最高8倍。这项技术主要针对长上下文场景下的内存瓶颈,已在 Gemma、Mistral 等开源模型上完成验证,并计划于2026年 4月的ICLR会议上正式展示。(来源:财联社)
http://t.cn/AXfegoyP
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部