一个有趣的评测：让大模型互相辩论，看谁能说服谁？

嘉益 · 发表于 2026-3-28 13:43:00

一个有趣的评测：让大模型互相辩论，看谁能说服谁？
详细的评测方法见：github.com/lechmazur/persuasion
图1是综合能力榜。
图2是能力四象限。
右上：既能说服别人，自己又很难被撼动。（相对最好）
左下：说服不了别人，且容易被别人说服。（相对最差）
右下：能说服人，也能被别人说服。
左上：防守性强（固执），但无法说服别人改变立场。
综合最强的是GPT-5.4 (high)。
国产模型里说服能力最强的是豆包，防守能力最强的是Kimi。
只看防守能力最强的是Grok，最差的是小米的mimo。
##

一个有趣的评测：让大模型互相辩论，看谁能说服谁？

本帖子中包含更多资源

相关帖子