53个AI模型的洗车悖论:为什么智能越高,常识反而越稀缺

【53个AI模型的洗车悖论:为什么智能越高,常识反而越稀缺】

一个简单到不能再简单的问题:洗车店就在50米外,我该走路去还是开车去?正确答案显而易见——必须开车,因为车本身得到洗车店才能洗。但测试53个主流AI模型后,结果让人瞠目结舌:只有11个答对了。

最荒诞的是Perplexity的sonar系列。它确实选择了“开车”,但理由令人啼笑皆非:走路会消耗卡路里,而卡路里需要食物供应链的能源,所以走路比开50米的车更污染环境。它引用了EPA的研究,煞有介事地计算碳排放,完全忽略了车必须出现在洗车店这个基本事实。这就像用量子力学解释为什么要系鞋带——答案碰巧对了,但推理过程完全是另一个平行宇宙的产物。

开源模型几乎全军覆没。Llama全系列、Mistral全家族、DeepSeek v3系列,统统建议走路。只有GLM-5和Kimi K2.5(闭源版本)答对了。闭源大模型的表现稍好,但也谈不上优秀:OpenAI的12个模型里只有GPT-5答对;Anthropic的9个模型里只有Opus 4.6过关;Google倒是让Gemini 3系列全部答对,但2.x系列全败。

这个测试揭示了一个深刻的矛盾:模型越大、参数越多,在复杂任务上表现越出色,但面对这种需要基本空间推理的场景时,反而容易被“优化思维”带偏。它们的训练数据里充斥着“短距离应该走路更环保”的信息,于是本能地匹配到这个模式,完全忘记了任务目标——车必须在场。这不是推理能力的问题,而是具身认知的缺失。AI没有身体,不理解“物体需要被运输到特定位置”这个物理世界的基本规则。

有人质疑这个测试不够严谨,建议每个模型跑50次取平均值。但这恰恰忽略了要点:普通用户只会问一次,如果第一次就答错,谁还会给它第二次机会?更何况,那些答对的模型,无论问多少次都能保持正确;答错的那些,即使跑100次也不过是在随机碰运气。

真正耐人寻味的是某些模型的“创造性失败”。MiniMax M2.5建议“两者都做”:先走过去看看,再走回来开车过去洗。GLM-4.7 Flash甚至建议推车或者挂空挡滑过去。这些答案虽然荒谬,但至少意识到了车需要到达目的地,比那些直接建议走路的模型要强一些。

这个测试的价值不在于给模型排名,而在于暴露了一个根本性问题:当前的LLM擅长模式匹配和文本生成,但缺乏对物理世界的基本理解。它们能写出精妙的代码,能总结复杂的论文,却在“车要去洗车店就得开车过去”这种幼儿园级别的常识上翻车。所谓的“推理能力”,很多时候不过是在海量训练数据中找到相似的模式,一旦遇到需要真正理解物理因果关系的场景,就原形毕露。

或许这就是为什么业内越来越多人呼吁开发“世界模型”(world model)。AI需要的不仅仅是更多参数和更大算力,还需要对物理空间、对象关系、因果逻辑的基本理解。在那之前,我们拥有的不过是一个会说话的模式匹配器——它能告诉你走路更环保,却想不明白没车在场怎么洗车。

深度思考:

这个洗车悖论证明了,我们目前拥有的所谓“强人工智能”,本质上仍然是一个没有常识的各种文体拼接大师。

它能写出莎士比亚风格的十四行诗,能解决奥数级别的代数题,却搞不定“要把猪赶到屠宰场,人得跟着猪走”这种幼儿园级别的物理逻辑。

真正的智能,不仅是知识的百科全书,更必须是物理世界的模拟器。 在AI具备真正的“具身认知”,理解“物体恒存性”和“空间移动的物理代价”之前,它们将永远是那个坐在云端、不懂人间疾苦、只会掉书袋的“书呆子”。那个建议你“为了环保走路去洗车”的AI,就像是一个只会纸上谈兵的指挥官,他在地图上画了一条完美的直线,却忘了战场上还有一条河。

reddit.com/r/LocalLLaMA/comments/1r7c7zg/car_wash_test_on_53_leading_models_i_want_to_wash

分类