OpenClaw创始人公布了一份32个模型的真实测试排名，评价维度只有三个：成功率/速度/费用，但都非常关键。

青竹居士 · 发表于 2026-3-13 21:18:46

OpenClaw创始人公布了一份32个模型的真实测试排名，评价维度只有三个：成功率/速度/费用，但都非常关键。

成功率排名前五名分别是：
1️⃣ google/gemini-3-flash-preview
2️⃣ minimax/minimax-m2.1
3️⃣ moonshotai/kimi-k2.5
4️⃣ anthropic/claude-sonnet-4.5
5️⃣ google/gemini-3-pro-preview

一些大家比较熟悉的模型排名整体来看，其实都在第一梯队附近，例如：
GPT-5 Nano 排第9
Qwen3 Coder Next 排第10
GLM-4.5 Air 排第11
DeepSeek V3.2 排第15

速度排名前五名，但成功率并不高。
minimax/minimax-m2.5
google/gemini-2.0-flash
meta-llama/llama-3.1-70b
google/gemini-1.5-pro
mistral/mistral-large

看完成功率前五的模型速度会发现成功率高的模型，基本都不快。
gemini-3-pro-preview 排21
minimax-m2.1 排22
gemini-3-flash-preview 排25
kimi-k2.5 排27
claude-sonnet-4.5 排28

费用排名最便宜的几个模型是：
1️⃣ GPT-5 Nano
2️⃣ gemini-2.5-flash-lite
3️⃣ mistralai/devstral-2512
4️⃣ GPT-4o-mini
5️⃣ minimax-m2.1

如果综合成功率/速度/费用三个维度来看minimax-m2.1 的整体平衡非常好。另外一个值得关注的是 kimi-k2.5。不过很多大家平时讨论很多的模型其实排名并不靠前，而一些平时不太被注意的模型反而在真实任务测试里表现更稳。

OpenClaw创始人公布了一份32个模型的真实测试排名，评价维度只有三个：成功率/速度/费用，但都非常关键。

本帖子中包含更多资源