寂静的雾雨 发表于 昨天 13:22

开源模型和顶级模型的距离能够缩短到多少?

开源模型和顶级模型的距离能够缩短到多少?Arena 团队用大约 100 次一次性生成测试,把智谱最新的 GLM-5.1 和 Claude Opus 4.6、GLM-5、Gemini 3.1 Pro 摆在一起跑了个遍,覆盖 3D 场景、SVG、小游戏等等。


先说结论,GLM-5.1 相比 GLM-5 确实有提升,生成的丰富度和质量都高了一档。比如同样生成一个纪念碑场景,5.1 的清晰度和完成度肉眼可见地好于 5。但大多数测试里,两者的差距并没有拉开到让人“哇” 出来的程度,版本号只升了 0.1,这个定位其实挺诚实的。

真正拉开它和顶级模型距离的,是 “协调能力”。测试中反复出现一个问题,单看某个元素效果不错,但放到整体场景里就开始打架。屋顶是倒的,元素互相穿模,骆驼走过画面的动画完全不连贯,游戏里按左键角色往右跑。Opus 在同样的珊瑚礁场景里,每条鱼都有独立的运动轨迹,整体构图也更协调。这种把所有零件 “装配” 到一起的能力,目前还是前沿闭源模型的护城河。

有个值得注意的趋势是,SVG 生成正在变成一个被 “刷榜” 的方向。Gemini 在 SVG 上表现异常好,GLM-5.1 也有明显的针对性优化痕迹。这意味着这类测试作为通用能力基准的参考价值在下降,以前这些生成效果更像是模型通用能力的 “副产品”,现在越来越像专项训练的结果了。

不过换个角度想,GLM-5.1 本身就是 Arena 排行榜上排名最靠前的开源模型之一,哪怕只是往前推了一小步,对整个开源生态来说也是实打实的进展。映射到实际开发场景中,它大概率能帮你写出能跑的功能,但可能改了代码库的一部分却漏了另一部分,或者建了个功能没把数据库连接做完整。和顶级模型比还有这层差距,但作为开源选项,已经相当能打了。

##
http://t.cn/AXMisRd1
页: [1]
查看完整版本: 开源模型和顶级模型的距离能够缩短到多少?