Qwen3.5 量化：INT4 vs NVFP4 vs FP8 vs BF16

非常目的 · 发表于 2026-3-14 12:56:44

Qwen3.5 量化：INT4 vs NVFP4 vs FP8 vs BF16

我对量化的 Qwen3.5 9B、27B 和 35B 进行了全面评估——全部与 vLLM 兼容。

文章：
http://t.cn/AXVuHrSr

一些实用建议：

- 性能优异的 4 位 Qwen3.5 27B 处理器比 Qwen3.5 9B 处理器性能强得多，而且内存预算也相近。

- 注意“INT4”标签：有些 INT4 型号最终会变得几乎和 FP8 版本一样大，因为许多敏感层保持了更高的精度。

量化后的 Qwen3.5 模型需要更长的思考时间。因此，虽然模型运行速度更快、内存效率更高，但生成的词元也更多。

为了获得最佳质量，首先不要量化线性注意力机制。如有必要，也可以将注意力机制保持在 16 位。Qwen 在其 INT4 版本中也采用了这种策略，效果很好。

对于 MoE 模型：不要量化共享专家。

我在
@verdacloud
提供的 B200、H200 和 RTX Pro 6000 GPU 上进行了这些实验（计算赞助）。

Qwen3.5 量化：INT4 vs NVFP4 vs FP8 vs BF16

本帖子中包含更多资源