找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 7|回复: 0

Qwen3.5 量化:INT4 vs NVFP4 vs FP8 vs BF16

[复制链接]

3

主题

1

回帖

11

积分

新手上路

积分
11
发表于 昨天 12:56 | 显示全部楼层 |阅读模式
Qwen3.5 量化:INT4 vs NVFP4 vs FP8 vs BF16


我对量化的 Qwen3.5 9B、27B 和 35B 进行了全面评估——全部与 vLLM 兼容。

文章:
http://t.cn/AXVuHrSr



一些实用建议:

- 性能优异的 4 位 Qwen3.5 27B 处理器比 Qwen3.5 9B 处理器性能强得多,而且内存预算也相近。

- 注意“INT4”标签:有些 INT4 型号最终会变得几乎和 FP8 版本一样大,因为许多敏感层保持了更高的精度。

量化后的 Qwen3.5 模型需要更长的思考时间。因此,虽然模型运行速度更快、内存效率更高,但生成的词元也更多。

为了获得最佳质量,首先不要量化线性注意力机制。如有必要,也可以将注意力机制保持在 16 位。Qwen 在其 INT4 版本中也采用了这种策略,效果很好。

对于 MoE 模型:不要量化共享专家。

我在
@verdacloud
提供的 B200、H200 和 RTX Pro 6000 GPU 上进行了这些实验(计算赞助)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-15 05:37 , Processed in 0.197650 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表