开源模型和顶级模型的距离能够缩短到多少？

寂静的雾雨 · 发表于 2026-4-11 13:22:38

开源模型和顶级模型的距离能够缩短到多少？Arena 团队用大约 100 次一次性生成测试，把智谱最新的 GLM-5.1 和 Claude Opus 4.6、GLM-5、Gemini 3.1 Pro 摆在一起跑了个遍，覆盖 3D 场景、SVG、小游戏等等。

先说结论，GLM-5.1 相比 GLM-5 确实有提升，生成的丰富度和质量都高了一档。比如同样生成一个纪念碑场景，5.1 的清晰度和完成度肉眼可见地好于 5。但大多数测试里，两者的差距并没有拉开到让人“哇” 出来的程度，版本号只升了 0.1，这个定位其实挺诚实的。

真正拉开它和顶级模型距离的，是 “协调能力”。测试中反复出现一个问题，单看某个元素效果不错，但放到整体场景里就开始打架。屋顶是倒的，元素互相穿模，骆驼走过画面的动画完全不连贯，游戏里按左键角色往右跑。Opus 在同样的珊瑚礁场景里，每条鱼都有独立的运动轨迹，整体构图也更协调。这种把所有零件 “装配” 到一起的能力，目前还是前沿闭源模型的护城河。

有个值得注意的趋势是，SVG 生成正在变成一个被 “刷榜” 的方向。Gemini 在 SVG 上表现异常好，GLM-5.1 也有明显的针对性优化痕迹。这意味着这类测试作为通用能力基准的参考价值在下降，以前这些生成效果更像是模型通用能力的 “副产品”，现在越来越像专项训练的结果了。

不过换个角度想，GLM-5.1 本身就是 Arena 排行榜上排名最靠前的开源模型之一，哪怕只是往前推了一小步，对整个开源生态来说也是实打实的进展。映射到实际开发场景中，它大概率能帮你写出能跑的功能，但可能改了代码库的一部分却漏了另一部分，或者建了个功能没把数据库连接做完整。和顶级模型比还有这层差距，但作为开源选项，已经相当能打了。

##
http://t.cn/AXMisRd1

开源模型和顶级模型的距离能够缩短到多少？

相关帖子