Qwen3.5-397B-A17B

Qwen3.5-397B-A17BNOTE本仓库包含以 Hugging Face Transformers 格式提供的后训练模型的权重和配置文件。这些产物兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等框架。
TIP对于希望获得托管式、可扩展推理服务而无需维护基础设施的用户,阿里云百炼平台 提供了官方的 Qwen API 服务。特别地,Qwen3.5-Plus 是与 Qwen3.5-397B-A17B 对应的托管版本,具备更多生产级特性,例如默认支持 100 万上下文长度、官方内置工具以及自适应工具调用能力。 更多信息请参阅 用户指南
在过去几个月中,我们加大了对基础模型的研发投入,致力于打造兼具卓越实用性与性能的模型。Qwen3.5 代表了一次重大飞跃,融合了多模态学习、架构效率、强化学习规模扩展以及全球可访问性等方面的突破,为开发者和企业带来前所未有的能力与效率。Qwen3.5 亮点Qwen3.5 具备以下增强特性:
统一的视觉-语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际达到与 Qwen3 相当的水平,并超越 Qwen3-VL 模型。
高效混合架构:门控 Delta 网络结合稀疏混合专家(MoE)机制,在保持极低延迟和成本开销的同时实现高吞吐推理。
可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而确保在真实场景中的强大适应能力。
全球语言覆盖:扩展支持至 201 种语言和方言,实现包容性的全球部署,并具备对文化与区域差异的细致理解。
下一代训练基础设施:相比纯文本训练,多模态训练效率接近 100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。
更多详情请参阅我们的博客文章 Qwen3.5。模型概览
类型:带视觉编码器的因果语言模型
训练阶段:预训练与后训练
语言模型
参数总量:共 397B,激活参数为 17B
隐藏层维度:4096
Token 嵌入维度:248320(已填充)
层数:60
隐藏层结构:15 * (3 * (门控 DeltaNet -> MoE) -> 1 * (门控注意力 -> MoE))

门控 DeltaNet:
线性注意力头数量:V 为 64,QK 为 16
头维度:128

门控注意力:
注意力头数量:Q 为 32,KV 为 2
头维度:256
旋转位置嵌入维度:64

混合专家(MoE)
专家总数:512
激活专家数:10 个路由专家 + 1 个共享专家
专家中间层维度:1024

语言模型输出维度:248320(已填充)
MTP:采用多步训练策略

上下文长度:原生支持 262,144,可扩展至最多 1,010,000 个 token。
基准测试结果语言
GPT5.2Claude 4.5 OpusGemini-3 ProQwen3-Max-ThinkingK2.5-1T-A32BQwen3.5-397B-A17B
Knowledge
MMLU-Pro87.489.589.885.787.187.8
MMLU-Redux95.095.695.992.894.594.9
SuperGPQA67.970.674.067.369.270.4
C-Eval90.592.293.493.794.093.0
Instruction Following
IFEval94.890.993.593.493.992.6
IFBench75.458.070.470.970.276.5
MultiChallenge57.954.264.263.362.767.6
Long Context
AA-LCR72.774.070.768.770.068.7
LongBench v254.564.468.260.661.063.2
STEM
GPQA92.487.091.987.487.688.4
HLE35.530.837.530.230.128.7
HLE-Verified¹43.338.84837.6--37.6
Reasoning
LiveCodeBench v687.784.890.785.985.083.6
HMMT Feb 2599.492.997.398.095.494.8
HMMT Nov 2510093.393.394.791.192.7
IMOAnswerBench86.384.083.383.981.880.9
AIME2696.793.390.693.393.391.3
General Agent
BFCL-V463.177.572.567.768.372.9
TAU2-Bench87.191.685.484.677.086.7
VITA-Bench38.256.351.640.941.949.7
DeepPlanning44.633.923.328.714.534.3
Tool Decathlon43.843.536.418.827.838.3
MCP-Mark57.542.353.933.529.546.1
Search Agent³
HLE w/ tool45.543.445.849.850.248.3
BrowseComp65.867.859.253.9--/74.969.0/78.6
BrowseComp-zh76.162.466.860.9--70.3
WideSearch76.876.468.057.972.774.0
Seal-045.047.745.546.957.446.9
Multilingualism
MMMLU89.590.190.684.486.088.5
MMLU-ProX83.785.787.778.582.384.7
NOVA-6354.656.756.754.256.059.1
INCLUDE87.586.290.582.383.385.6
Global PIQA90.991.693.286.089.389.8
PolyMATH62.579.081.664.743.173.3
WMT24++78.879.780.777.677.678.9
MAXIFE88.479.287.584.072.888.2
Coding Agent
SWE-bench Verified80.080.976.275.376.876.4
SWE-bench Multilingual72.077.565.066.773.069.3
SecCodeBench68.768.662.457.561.368.3
Terminal Bench 254.059.354.222.550.852.5
* HLE-Verified:人类最后考试(HLE)的一个经过验证和修订的版本,附带透明的、逐组件的验证协议和细粒度的错误分类体系。我们在 https://huggingface.co/datasets/skylenage/HLE-Verified 开源了该数据集。
* TAU2-Bench:我们遵循官方设置,但在航空领域除外,该领域所有模型均采用 Claude Opus 4.5 系统卡中提出的修复方案进行评估。
* MCPMark:GitHub MCP 服务器使用来自 api.githubcopilot.com 的 v0.30.3 版本;Playwright 工具的响应被截断至 32k tokens。
* Search Agent:大多数基于我们模型构建的搜索智能体采用一种简单的上下文折叠策略(256k):一旦累积的工具响应长度达到预设阈值,历史中较早的工具响应将被剪枝,以保持上下文在限制范围内。
* BrowseComp:我们测试了两种策略,简单上下文折叠策略得分为 69.0,而采用与 DeepSeek-V3.2 和 Kimi K2.5 相同的“全部丢弃”策略则得分为 78.6。
* WideSearch:我们使用 256k 的上下文窗口,不进行任何上下文管理。
* MMLU-ProX:我们报告在 29 种语言上的平均准确率。
* WMT24++:在对 WMT24 进行难度标注和重新平衡后得到的一个更具挑战性的子集;我们使用 XCOMET-XXL 报告在 55 种语言上的平均得分。
* MAXIFE:我们报告在英语及多语言原始提示(共 23 种设置)上的准确率。
* 空单元格(--)表示分数尚未提供或不适用。

视觉语言
GPT5.2Claude 4.5 OpusGemini-3 ProQwen3-VL-235B-A22BK2.5-1T-A32BQwen3.5-397B-A17B
STEM and Puzzle
MMMU86.780.787.280.684.385.0
MMMU-Pro79.570.681.069.378.579.0
MathVision83.074.386.674.684.288.6
Mathvista(mini)83.180.087.985.890.190.3
We-Math79.070.086.974.884.787.9
DynaMath86.879.785.182.884.486.3
ZEROBench93104912
ZEROBench_sub33.228.439.028.433.541.0
BabyVision34.414.249.722.236.552.3/43.3
General VQA
RealWorldQA83.377.083.381.381.083.9
MMStar77.173.283.178.780.583.8
HallusionBench65.264.168.666.769.871.4
MMBenchEN-DEV-v1.188.289.293.789.794.293.7
SimpleVQA55.865.773.261.371.267.1
Text Recognition and Document Understanding
OmniDocBench1.585.787.788.584.588.890.8
CharXiv(RQ)82.168.581.466.177.580.8
MMLongBench-Doc--61.960.556.258.561.5
CC-OCR70.376.979.081.579.782.0
AI2D_TEST92.287.794.189.290.893.9
OCRBench80.785.890.487.592.393.1
Spatial Intelligence
ERQA59.846.870.552.5--67.5
CountBench91.990.697.393.794.197.2
RefCOCO(avg)----84.191.187.892.3
ODInW13----46.343.2--47.0
EmbSpatialBench81.375.761.284.377.484.5
RefSpatialBench----65.569.9--73.6
LingoQA68.878.872.866.868.281.6
V*75.967.088.085.977.095.8/91.1
Hypersim------11.0--12.5
SUNRGBD------34.9--38.3
Nuscene------13.9--16.0
Video Understanding
VideoMME(w sub.)8677.688.483.887.487.5
VideoMME(w/o sub.)85.881.487.779.083.283.7
VideoMMMU85.984.487.680.086.684.7
MLVU (M-Avg)85.681.783.083.885.086.7
MVBench78.167.274.175.273.577.6
LVBench73.757.376.263.675.975.5
MMVU80.877.377.571.180.475.4
Visual Agent
ScreenSpot Pro--45.772.762.0--65.6
OSWorld-Verified38.266.3--38.163.362.2
AndroidWorld------63.7--66.8
Medical VQA
SLAKE76.976.481.354.781.679.9
PMC-VQA58.959.962.341.263.364.2
MedXpertQA-MM73.363.676.047.665.370.0
* MathVision:我们模型的分数使用固定提示进行评估,例如:“请逐步推理,并将最终答案放在 \boxed{} 中。” 对于其他模型,我们报告使用和不使用 \boxed{} 格式运行中的较高分数。
* BabyVision:我们模型的分数在启用 CI(代码解释器)的情况下报告;若不启用 CI,结果为 43.3。
* V*:我们模型的分数在启用 CI(代码解释器)的情况下报告;若不启用 CI,结果为 91.1。
* 空单元格(--)表示分数尚未提供或不适用。

快速开始IMPORTANTQwen3.5 模型默认以“思考模式”运行,在生成最终回复前会先输出由 \<think>\n...\</think>\n\n 标记的思考内容。 若要禁用思考内容并直接获得回复,请参见此处的示例。
为了简化集成,我们建议通过 API 使用 Qwen3.5。以下是如何通过 OpenAI 兼容 API 使用 Qwen3.5 的指南。部署 Qwen3.5Qwen3.5 可通过流行的推理框架以 API 形式提供服务。 以下展示了启动 Qwen3.5 模型 OpenAI 兼容 API 服务器的示例命令。IMPORTANT不同框架在推理效率和吞吐量方面存在显著差异。 我们建议使用最新版本的框架,以确保最佳性能和兼容性。 对于生产负载或高吞吐场景,强烈推荐使用专用的服务引擎,如 SGLang、KTransformers 或 vLLM。
IMPORTANT该模型的默认上下文长度为 262,144 个 token。 如果遇到内存不足(OOM)错误,请考虑减小上下文窗口。 然而,由于 Qwen3.5 在复杂任务中依赖扩展上下文,我们建议保持至少 128K tokens 的上下文长度,以保留其思考能力。
SGLangSGLang 是一个用于大语言模型和视觉语言模型的快速服务框架。 Qwen3.5 需要使用开源仓库主分支中的 SGLang,可在全新环境中通过以下命令安装:uv pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python&egg=sglang'更多详情请参阅其文档。以下命令将在 http://localhost:8000/v1 创建 API 端点:
标准版本:以下命令可使用 8 块 GPU 上的张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3.5-397B-A17B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3

工具调用:若需支持工具调用,可使用以下命令。SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3.5-397B-A17B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder
多 Token 预测(MTP):推荐使用以下命令启用 MTP:SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3.5-397B-A17B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4
vLLM 是一个高吞吐、内存高效的 LLM 推理与服务引擎。 Qwen3.5 需要使用开源仓库主分支中的 vLLM,可在全新环境中通过以下命令安装:uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
更多详情请参阅其文档。有关 Qwen3.5 的详细使用指南,请参见 vLLM Qwen3.5 使用示例。以下命令将在 http://localhost:8000/v1 创建 API 端点:
标准版本:以下命令可用于在 8 个 GPU 上使用张量并行(tensor parallel)创建一个最大上下文长度为 262,144 个 token 的 API 端点。

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

工具调用:若要支持工具使用,可使用以下命令。
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 Token 预测(MTP):推荐使用以下命令启用 MTP:
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'纯文本模式:以下命令会跳过视觉编码器和多模态配置,以释放内存用于额外的 KV 缓存:
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only


KTransformersKTransformers 是一个灵活的框架,支持通过 CPU-GPU 异构计算体验前沿的大语言模型推理优化。
有关使用 KTransformers 运行 Qwen3.5 的说明,请参阅 KTransformers 部署指南。Hugging Face TransformersHugging Face Transformers 提供了一个_轻量级_服务器,可用于快速测试和中等负载部署。
运行 Qwen3.5 需要最新版的 transformers:pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"更多详情请参见其文档。同时请确保已安装 torchvision 和 pillow。然后,运行 transformers serve 启动服务器,API 端点位于 http://localhost:8000/v1;如果可用,它会将模型加载到加速器上:transformers serve --force-model Qwen/Qwen3.5-397B-A17B --port 8000 --continuous-batching
通过 Chat Completions API 使用 Qwen3.5Chat Completions API 可通过标准 HTTP 请求或 OpenAI SDK 访问。
此处我们展示使用 OpenAI Python SDK 的示例。开始之前,请确保已安装该 SDK 并配置了 API 密钥和 API 基础 URL,例如:pip install -U openai

# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"我们建议在生成时使用以下采样参数组合:
思考模式:temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
指令(或非思考)模式:temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
请注意,不同推理框架对采样参数的支持情况可能有所不同。
纯文本输入
from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
{"role": "user", "content": "Type "I love Qwen3.5" backwards"},
]

chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-397B-A17B",
messages=messages,
max_tokens=81920,
temperature=0.6,
top_p=0.95,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)

图像输入
from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/CI_Demo/mathv-1327.jpg"
}
},
{
"type": "text",
"text": "The centres of the four illustrated circles are in the corners of the square. The two big circles touch each other and also the two little circles. With which factor do you have to multiply the radii of the little circles to obtain the radius of the big circles?\nChoices:\n(A) $\\frac{2}{9}$\n(B) $\\sqrt{5}$\n(C) $0.8 \\cdot \\pi$\n(D) 2.5\n(E) $1+\\sqrt{2}$"
}
]
}
]

response = client.chat.completions.create(
model="Qwen/Qwen3.5-397B-A17B",
messages=messages,
max_tokens=81920,
temperature=0.6,
top_p=0.95,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)

视频输入
from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
{
"role": "user",
"content": [
{
"type": "video_url",
"video_url": {
"url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
}
},
{
"type": "text",
"text": "How many porcelain jars were discovered in the niches located in the primary chamber of the tomb?"
}
]
}
]

# When vLLM is launched with `--media-io-kwargs '{"video": {"num_frames": -1}}'`,
# video frame sampling can be configured via `extra_body` (e.g., by setting `fps`).
# This feature is currently supported only in vLLM.
#
# By default, `fps=2` and `do_sample_frames=True`.
# With `do_sample_frames=True`, you can customize the `fps` value to set your desired video sampling rate.
response = client.chat.completions.create(
model="Qwen/Qwen3.5-397B-A17B",
messages=messages,
max_tokens=81920,
temperature=0.6,
top_p=0.95,
extra_body={
"top_k": 20,
"mm_processor_kwargs": {"fps": 2, "do_sample_frames": True},
},
)

print("Chat response:", chat_response)

指令(或非思考)模式IMPORTANTQwen3.5 不官方支持 Qwen3 的软切换指令,即 /think 和 /nothink。
Qwen3.5 默认会在响应前进行思考。
您可以通过配置 API 参数让模型直接返回响应,而不进行思考。
例如:from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/RealWorld/RealWorld-04.png"
}
},
{
"type": "text",
"text": "Where is this?"
}
]
}
]

chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-397B-A17B",
messages=messages,
max_tokens=32768,
temperature=0.7,
top_p=0.8,
presence_penalty=1.5,
extra_body={
"top_k": 20,
"chat_template_kwargs": {"enable_thinking": False},
},
)
print("Chat response:", chat_response)如果您使用的是阿里云百炼平台的 API,除了更改 model 外,请使用 "enable_thinking": False,而不是 "chat_template_kwargs": {"enable_thinking": False}。






分类