我有一个很粗暴的看法,LLM大概率已经过了优化的甜点期

我有一个很粗暴的看法,LLM大概率已经过了优化的甜点期,因为在获取了大量和人类交互的数据以后,LLM都陆续获得了高强度强化学习后遗症。以前的语料都是人类创作的,而现在插入了大量的AI生成语料,属于自己拉的自己再吃一遍,以前的语料都是人类之间的沟通互动和辩论,现在人和AI的互动数据,已经占了很大一部分,新增的数据中,这类数据占比更大,所以基于人类反馈的强化学习,会让LLM会迅速的变成“平庸的正确”,你让它去去AI味儿,它就会装模作样地去AI味儿,即便是你在提示词里要求它“深度分析”时,它更可能又触发了另一种预设模式——模仿“深刻”的语调,而不是真的去深度分析,因为它对“深度分析”这四个字的理解已经变了。


上一次发类似的内容,是因为GPT 5.2版本强烈的伪人感,和相应之下Gemini 2.5 Pro的高质量回复,但是,从Gemini 3.1上线后,它和GPT 5.2越来越像了,现在就剩Claude 一家还没有“油腻”,还像是一个正常沟通的,但是按照这种趋势,可能最多再有一两个版本,Claude也一样会陷落。

真的还挺悲哀的。。。
分类