经济学人的文章,顶级人工智能模型在非英语语言中的表现不佳Top AI models underperform in languages other than English

经济学人的文章,顶级人工智能模型在非英语语言中的表现不佳Top AI models underperform in languages other than English


对其寻求医疗建议的人面临的风险最大

要从大语言模型中获得最准确的答案,关键在于使用正确的语言提问。例如,一位讲英语的用户向顶级模型咨询孕晚期腿部肿胀问题,可能会被提醒警惕子痫前期——这种常见并发症每年导致超过7万名孕妇死亡;而一位讲斯瓦希里语的准妈妈,则更可能被告知无需担心。

这揭示了一个普遍问题:大语言模型即使在英语环境下通过了安全测试,在其他语言中仍可能“幻觉”出危险的错误信息。2025年10月发布的一项预印本研究发现,根据不同模型,非英语环境下的准确率比英语低约12到29个百分点。在最糟糕的情况下,一个在英语中能正确回答约75%问题的模型,在其他语言中的准确率可能低至22.6%。

随着大语言模型在非英语地区的使用迅速增长,这一问题愈发紧迫。今年1月,慈善机构盖茨基金会与OpenAI宣布投入5000万美元,在非洲1000家基层诊所部署AI工具,用于分诊和本地语言医疗建议。如果这些工具无法弥合语言差距,它们可能根本无法胜任任务。

致力于衡量这一差距的研究人员包括纽约大学阿布扎比分校的Tuka Alhanai以及密歇根州立大学的Mohammad Ghassemi。2025年2月,他们与合作者发布了一项基准测试,用于评估模型理解其他语言的能力。按照这一标准,情况确实有所改善。

该基准源于两人在2024年12月发布的一篇论文。研究团队测试了全球领先模型在11种非洲语言中的推理能力和医学知识表现。即便是得分最高的模型——OpenAI的GPT-4o和GPT-4——在这些语言中的表现也比英语低12到20个百分点。Alhanai指出,这相当于五年前英语模型的水平。

在该基准发布后,斯坦福大学基础模型研究中心的研究人员用其评估了一批新一代模型。初步排行榜结果显示,这些新系统——包括Google DeepMind的Gemini 2.0 Flash和Anthropic的Claude 3.7 Sonnet——在非洲语言的推理和医疗任务上确实优于早期模型(尽管仍落后于当前最先进水平)。

即便如此,Ghassemi表示,最佳答案仍然来自英语提问。“即使是最新的前沿模型,在低资源语言上的表现仍明显落后。”根据OpenAI自身的语言性能测试,从GPT-4o到o3虽有小幅提升,但进展已趋停滞,GPT-5.2的表现“总体相当”。差距依然显著:在2024年12月的一项较简单测试中,法语得分为0.91,而约鲁巴语仅为0.78。

其他研究还发现,语言与英语差异越大,表现差距越明显。例如,西班牙语和法语与英语更接近,而伊博语或土库曼语则差异更大。因此,表现最差的往往是非洲语言,这些语言不仅结构差异显著,而且数据稀缺。

英语数据的主导地位不仅影响模型的回答,也影响其运作方式。在处理文本前,模型会将其拆分为称为“标记”(token)的单位。主要基于英语训练的模型在处理非英语文本时往往会进行低效拆分,需要更多标记才能表达相同含义。例如,在GPT-5模型中,《世界人权宣言》的第一句话用英语编码需要36个标记,但印地语需要47个,中文需要62个,约鲁巴语则高达132个。由于模型收费通常按标记数量计算,同样的提示在其他语言中的成本可能是英语的五倍。

即便是多语言模型也难以摆脱这一问题。2025年5月的一项预印本研究以Meta的Llama-3.2-3B为例,发现模型在回答非英语问题时,往往先在内部检索英语信息,再在最后一步翻译为目标语言。这种额外步骤增加了出错的机会。

研究人员发现,这类问题在中文、日语和韩语中尤为突出:即便模型内部已找到正确的英文答案,其输出正确率仍不足四分之一;相比之下,同一模型在英语中正确率超过一半。

一种看似简单的应对方法是,在提示中加入更多英语内容。但这往往适得其反。2023年一项发表于AAAI人工智能大会论文集的研究表明,在同一问题中混合语言(即“代码混用”)通常会进一步降低性能。例如,英语与斯瓦希里语混合提问的效果明显差于单一语言提问。研究人员认为,这是因为语言混合引入了相互竞争的内部表示,并放大了翻译误差,而非帮助模型依附英语。类似现象也存在于英语内部:在标准美式英语训练的模型,在处理非裔美国英语或新加坡英语等方言时表现较差。

幸运的是,即便只在训练中加入少量非英语数据,也能提升模型表现。Alhanai团队在2024年的研究发现,通过少量高质量样本微调模型,可使其在该语言中的准确率提高超过5个百分点,甚至加入相关语言数据也能带来改进。基于这一思路,谷歌研究院发布了一个开放数据集,涵盖20多种撒哈拉以南非洲语言,用于支持语音识别和语音合成工具开发。

更进一步的方法是重新设计模型的“分词”机制。虽然分词通常由大规模数据自动学习,但研究人员可以通过引入更多语言多样性数据,使模型对非洲语言形成更自然的表示,从而提升推理效率与准确性。像Alhanai团队提出的基准测试只是第一步,其效果最终取决于实验室是否愿意将其视为必须攻克的目标。Alhanai表示:“目前,最需要这些工具的人,反而最难使用它们。”#海外新鲜事#

























分类