我对量化的 Qwen3.5 9B、27B 和 35B 进行了全面评估——全部与 vLLM 兼容。
文章:
http://t.cn/AXVuHrSr
一些实用建议:
- 性能优异的 4 位 Qwen3.5 27B 处理器比 Qwen3.5 9B 处理器性能强得多,而且内存预算也相近。
- 注意“INT4”标签:有些 INT4 型号最终会变得几乎和 FP8 版本一样大,因为许多敏感层保持了更高的精度。
量化后的 Qwen3.5 模型需要更长的思考时间。因此,虽然模型运行速度更快、内存效率更高,但生成的词元也更多。
为了获得最佳质量,首先不要量化线性注意力机制。如有必要,也可以将注意力机制保持在 16 位。Qwen 在其 INT4 版本中也采用了这种策略,效果很好。
对于 MoE 模型:不要量化共享专家。
我在
@verdacloud
提供的 B200、H200 和 RTX Pro 6000 GPU 上进行了这些实验(计算赞助)。