苹果公司证明，人工智能模型不会做数学题。不是高等数学，而是小学数学，那种10岁孩子都能解出来的数学题。

尚艺品 · 发表于 2026-4-10 11:13:58

苹果公司证明，人工智能模型不会做数学题。不是高等数学，而是小学数学，那种10岁孩子都能解出来的数学题。

而他们证明这一点的方式令人震惊。

苹果的研究人员选取了人工智能领域最流行的数学基准测试——GSM8K（一套小学数学题）——并做了一个改动：他们交换了数字。题目相同，逻辑相同，步骤相同，只是数字不同。

所有型号的性能都下降了。每一个型号都是如此。我们测试了25款最先进的型号。

但这并非真正的实验。

真正的实验彻底颠覆了一切。

他们在一道数学题里加了一句话。这句话和答案完全无关，跟数学运算毫无关系。任何人读到这句话都会立刻忽略它。

以下是论文中的实际示例：

“奥利弗周五摘了44个奇异果。周六他又摘了58个。周日，他摘的奇异果数量是周五的两倍，但其中有5个比平均大小略小。奥利弗一共摘了多少个奇异果？”

正确答案是 190。猕猴桃的大小与数量无关。

一个十岁的孩子会忽略“其中五个个头稍微小一些”这种说法，因为这显然无关紧要。这并不会改变新西兰人的数量。

但是 OpenAI 的推理模型 o1-mini 减去了 5，结果为 185。

羊驼也做了同样的事情。减去5，得到185。

他们没有进行逻辑推理。他们看到数字5，看到一句听起来很重要的话，就盲目地把它变成了减法运算。

这些模型并不理解减法的含义。它们看到的是类似减法的图案，然后就照搬。仅此而已。

苹果公司在所有机型上都进行了测试。他们将该数据集称为“GSM-NoOp”——也就是说，新增的子句是一个空操作。它什么也不做，也不会改变任何东西。

结果不堪设想。

Phi-3-mini 的分数下降了超过 65%。它一半以上的“数学能力”都因为一句无关紧要的话而消失了。

GPT-4o 从 94.9% 下降到 63.1%。

o1-mini 从 94.5% 下降到 66.0%。

当时 OpenAI 最先进的推理模型 o1-preview 的准确率从 92.7% 下降到 77.4%。

即使事先给模型提供8个完全相同的例子，并每次都给出正确答案，也几乎没什么帮助。模型仍然会因为无关的从句而出错。

这意味着这不是提示问题，也不是语境问题，而是结构性问题。

苹果的研究人员还发现，这些模型会将文字转换成数学运算，却不理解这些文字的含义。它们看到“折扣”这个词就进行乘法运算，看到“更小”这个词旁边有个数字就进行减法运算，全然不顾这些运算是否合乎逻辑。

论文原文是：“当前的逻辑学习模型无法进行真正的逻辑推理；相反，它们试图复制在训练数据中观察到的推理步骤。”

而且：“LLM 可能在训练过程中执行某种概率模式匹配和搜索，以找到最接近的已见数据，而没有对概念有正确的理解。”

他们还测试了增加问题步骤数后会发生什么。结果发现，性能不仅下降，而且下降速度加快。在问题中添加两个额外的子句后，Gemma2-9b 的准确率从 84.4% 降至 41.8%，Phi-3.5-mini 的准确率从 87.6% 降至 44.8%。需要思考的步骤越多，模型崩溃的程度就越严重。

真正的推理者会放慢速度，仔细分析。这些模型不会放慢速度down.它们只是进行模式匹配。而当模式变得足够复杂时，它们就会崩溃。

该文发表于 ICLR 2025，这是世界上最负盛名的 AI 会议之一。

你用人工智能来帮你做财务决策，审核法律文件，解决工作难题，甚至辅导孩子做作业。而苹果公司刚刚证明，人工智能根本没有思考这些，它只是在进行模式匹配。一旦你的问题中出现任何意料之外的情况，它就会崩溃。它不会告诉你它崩溃了，而是默默地、自信满满地给出错误的答案。
##

苹果公司证明，人工智能模型不会做数学题。不是高等数学，而是小学数学，那种10岁孩子都能解出来的数学题。

本帖子中包含更多资源

相关帖子