查看: 3|回复: 0

开源模型和顶级模型的距离能够缩短到多少?

[复制链接]

15

主题

0

回帖

45

积分

新手上路

积分
45
发表于 2 小时前 | 显示全部楼层 |阅读模式
开源模型和顶级模型的距离能够缩短到多少?Arena 团队用大约 100 次一次性生成测试,把智谱最新的 GLM-5.1 和 Claude Opus 4.6、GLM-5、Gemini 3.1 Pro 摆在一起跑了个遍,覆盖 3D 场景、SVG、小游戏等等。


先说结论,GLM-5.1 相比 GLM-5 确实有提升,生成的丰富度和质量都高了一档。比如同样生成一个纪念碑场景,5.1 的清晰度和完成度肉眼可见地好于 5。但大多数测试里,两者的差距并没有拉开到让人“哇” 出来的程度,版本号只升了 0.1,这个定位其实挺诚实的。

真正拉开它和顶级模型距离的,是 “协调能力”。测试中反复出现一个问题,单看某个元素效果不错,但放到整体场景里就开始打架。屋顶是倒的,元素互相穿模,骆驼走过画面的动画完全不连贯,游戏里按左键角色往右跑。Opus 在同样的珊瑚礁场景里,每条鱼都有独立的运动轨迹,整体构图也更协调。这种把所有零件 “装配” 到一起的能力,目前还是前沿闭源模型的护城河。

有个值得注意的趋势是,SVG 生成正在变成一个被 “刷榜” 的方向。Gemini 在 SVG 上表现异常好,GLM-5.1 也有明显的针对性优化痕迹。这意味着这类测试作为通用能力基准的参考价值在下降,以前这些生成效果更像是模型通用能力的 “副产品”,现在越来越像专项训练的结果了。

不过换个角度想,GLM-5.1 本身就是 Arena 排行榜上排名最靠前的开源模型之一,哪怕只是往前推了一小步,对整个开源生态来说也是实打实的进展。映射到实际开发场景中,它大概率能帮你写出能跑的功能,但可能改了代码库的一部分却漏了另一部分,或者建了个功能没把数据库连接做完整。和顶级模型比还有这层差距,但作为开源选项,已经相当能打了。

##
http://t.cn/AXMisRd1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部