一个有趣的评测:让大模型互相辩论,看谁能说服谁? 嘉益 2026-03-28 13:43:00 一个有趣的评测:让大模型互相辩论,看谁能说服谁? 详细的评测方法见:github.com/lechmazur/persuasion 图1是综合能力榜。 图2是能力四象限。 右上:既能说服别人,自己又很难被撼动。(相对最好) 左下:说服不了别人,且容易被别人说服。(相对最差) 右下:能说服人,也能被别人说服。 左上:防守性强(固执),但无法说服别人改变立场。 综合最强的是GPT-5.4 (high)。 国产模型里说服能力最强的是豆包,防守能力最强的是Kimi。 只看防守能力最强的是Grok,最差的是小米的mimo。 ##