查看: 3|回复: 0

苹果公司证明,人工智能模型不会做数学题。不是高等数学,而是小学数学,那种10岁孩子都能解出来的数学题。

[复制链接]

13

主题

1

回帖

51

积分

注册会员

积分
51
发表于 5 小时前 | 显示全部楼层 |阅读模式
苹果公司证明,人工智能模型不会做数学题。不是高等数学,而是小学数学,那种10岁孩子都能解出来的数学题。


而他们证明这一点的方式令人震惊。

苹果的研究人员选取了人工智能领域最流行的数学基准测试——GSM8K(一套小学数学题)——并做了一个改动:他们交换了数字。题目相同,逻辑相同,步骤相同,只是数字不同。

所有型号的性能都下降了。每一个型号都是如此。我们测试了25款最先进的型号。

但这并非真正的实验。

真正的实验彻底颠覆了一切。

他们在一道数学题里加了一句话。这句话和答案完全无关,跟数学运算毫无关系。任何人读到这句话都会立刻忽略它。

以下是论文中的实际示例:

“奥利弗周五摘了44个奇异果。周六他又摘了58个。周日,他摘的奇异果数量是周五的两倍,但其中有5个比平均大小略小。奥利弗一共摘了多少个奇异果?”

正确答案是 190。猕猴桃的大小与数量无关。

一个十岁的孩子会忽略“其中五个​​个头稍微小一些”这种说法,因为这显然无关紧要。这并不会改变新西兰人的数量。

但是 OpenAI 的推理模型 o1-mini 减去了 5,结果为 185。

羊驼也做了同样的事情。减去5,得到185。

他们没有进行逻辑推理。他们看到数字5,看到一句听起来很重要的话,就盲目地把它变成了减法运算。

这些模型并不理解减法的含义。它们看到的是类似减法的图案,然后就照搬。仅此而已。

苹果公司在所有机型上都进行了测试。他们将该数据集称为“GSM-NoOp”——也就是说,新增的子句是一个空操作。它什么也不做,也不会改变任何东西。

结果不堪设想。

Phi-3-mini 的分数下降了超过 65%。它一半以上的“数学能力”都因为一句无关紧要的话而消失了。

GPT-4o 从 94.9% 下降到 63.1%。

o1-mini 从 94.5% 下降到 66.0%。

当时 OpenAI 最先进的推理模型 o1-preview 的准确率从 92.7% 下降到 77.4%。

即使事先给模型提供8个完全相同的例子,并每次都给出正确答案,也几乎没什么帮助。模型仍然会因为无关的从句而出错。

这意味着这不是提示问题,也不是语境问题,而是结构性问题。

苹果的研究人员还发现,这些模型会将文字转换成数学运算,却不理解这些文字的含义。它们看到“折扣”这个词就进行乘法运算,看到“更小”这个词旁边有个数字就进行减法运算,全然不顾这些运算是否合乎逻辑。

论文原文是:“当前的逻辑学习模型无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。”

而且:“LLM 可能在训练过程中执行某种概率模式匹配和搜索,以找到最接近的已见数据,而没有对概念有正确的理解。”

他们还测试了增加问题步骤数后会发生什么。结果发现,性能不仅下降,而且下降速度加快。在问题中添加两个额外的子句后,Gemma2-9b 的准确率从 84.4% 降至 41.8%,Phi-3.5-mini 的准确率从 87.6% 降至 44.8%。需要思考的步骤越多,模型崩溃的程度就越严重。

真正的推理者会放慢速度,仔细分析。这些模型不会放慢速度down.它们只是进行模式匹配。而当模式变得足够复杂时,它们就会崩溃。

该文发表于 ICLR 2025,这是世界上最负盛名的 AI 会议之一。

你用人工智能来帮你做财务决策,审核法律文件,解决工作难题,甚至辅导孩子做作业。而苹果公司刚刚证明,人工智能根本没有思考这些,它只是在进行模式匹配。一旦你的问题中出现任何意料之外的情况,它就会崩溃。它不会告诉你它崩溃了,而是默默地、自信满满地给出错误的答案。
##



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部