找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3|回复: 0

OpenClaw创始人公布了一份32个模型的真实测试排名,评价维度只有三个:成功率/速度/费用,但都非常关键。

[复制链接]

12

主题

0

回帖

36

积分

新手上路

积分
36
发表于 昨天 21:18 | 显示全部楼层 |阅读模式
OpenClaw创始人公布了一份32个模型的真实测试排名,评价维度只有三个:成功率/速度/费用,但都非常关键。


成功率排名前五名分别是:
1️⃣ google/gemini-3-flash-preview
2️⃣ minimax/minimax-m2.1
3️⃣ moonshotai/kimi-k2.5
4️⃣ anthropic/claude-sonnet-4.5
5️⃣ google/gemini-3-pro-preview

一些大家比较熟悉的模型排名整体来看,其实都在第一梯队附近,例如:
GPT-5 Nano 排第9
Qwen3 Coder Next 排第10
GLM-4.5 Air 排第11
DeepSeek V3.2 排第15

速度排名前五名,但成功率并不高。
minimax/minimax-m2.5
google/gemini-2.0-flash
meta-llama/llama-3.1-70b
google/gemini-1.5-pro
mistral/mistral-large

看完成功率前五的模型速度会发现成功率高的模型,基本都不快。
gemini-3-pro-preview 排21
minimax-m2.1 排22
gemini-3-flash-preview 排25
kimi-k2.5 排27
claude-sonnet-4.5 排28

费用排名最便宜的几个模型是:
1️⃣ GPT-5 Nano
2️⃣ gemini-2.5-flash-lite
3️⃣ mistralai/devstral-2512
4️⃣ GPT-4o-mini
5️⃣ minimax-m2.1

如果综合成功率/速度/费用三个维度来看minimax-m2.1 的整体平衡非常好。另外一个值得关注的是 kimi-k2.5。不过很多大家平时讨论很多的模型其实排名并不靠前,而一些平时不太被注意的模型反而在真实任务测试里表现更稳。








本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-14 05:28 , Processed in 0.335173 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表