Google的搜索引擎，现在每分钟大约要撒几十万个谎。一天下来，这个数字是几千万。

广佛人民 · 发表于 2026-4-8 21:31:39

Google的搜索引擎，现在每分钟大约要撒几十万个谎。一天下来，这个数字是几千万。

系统没有崩溃，这恰恰是它正常运转时的状态。

2024年起，Google在搜索结果页最顶端加了一个叫“AI概览”的功能。你搜任何问题，还没看到那些蓝色链接，一段由AI生成的摘要就替你总结好了答案。《纽约时报》最近和AI初创公司Oumi合作，用OpenAI发布的标准题库SimpleQA，给这个功能做了一次系统性体检。这个题库包含4000多道有明确答案的事实性问题。

体检结果：升级到最新的Gemini 3模型后，“AI概览”答对了91%的题。十道题对九道，在AI圈子里算得上高分。

但Google每天处理的搜索量是数十亿次。9%的错误率乘上这个基数，就是开头那个数字：每天有数千万条错误答案被推送到用户眼前。

测试报告里列了几个具体案例。

有一道题问鲍勃·马利的故居是哪一年被改建为博物馆。“AI概览”引用了3个网页，其中两个根本没提到日期，第3个是维基百科，上面列了两个互相矛盾的年份。“AI概览”自信地选了那个错的。

还有一道题问大提琴家马友友哪一年入选古典音乐名人堂。“AI概览”找到了名人堂官网上关于马友友的页面，但给出的回答是：不存在古典音乐名人堂这种东西。

它引用的网页上明明白白写着答案，它看了，然后说这东西不存在。

Google不认可这个测试。发言人内德·阿德里安斯对《纽约时报》说，SimpleQA本身就包含错误信息，Google内部用的是经过更严格筛选的SimpleQA Verified版本。他的原话是：这项研究漏洞很大，不能反映人们在Google上真正搜索的内容。

这个辩护有一个微妙的问题。Google说这些题目不代表真实搜索场景，但它并没有说自己的真实准确率更高。事实上，Google最近发布新模型时公开的基准测试数据显示，在没有外部数据辅助的情况下，Gemini模型的事实准确率大约在60%到80%之间。接入互联网搜索结果之后确实会更准，但从60%提到90%，和从90%提到100%，是完全不同的工程难度。

还有一个容易被忽略的细节。“AI概览”并不是每次都调用Google最强的模型。Google承认，系统会根据查询内容选择不同的模型。最准确的Gemini 3.1 Pro速度慢、成本高，大多数时候用户看到的是更快更便宜的Gemini Flash。Google需要在搜索页面加载速度和回答质量之间做取舍，而从目前的产品设计来看，速度赢了。

所有这些问题，其实都不是“AI概览”独有的。大模型本质上是概率机器，同一个问题问两遍，可能第一次答对第二次答错。Oumi做测试时用的评估工具本身也是AI，也会产生幻觉。在这个领域，连衡量准确率这件事本身都不够准确。

真正值得注意的，是产品逻辑和免责声明之间的裂缝。“AI概览”被放在搜索结果的最顶端，字号大，排版醒目，用的是陈述句语气，一切视觉信号都在暗示：这就是答案，不用再往下翻了。与此同时，每条AI摘要底部都挂着一行小字：AI可能出错，请自行核实。

一个号称能帮你省去翻阅网页时间的功能，最终给出的操作指南是：你最好自己再去翻一遍网页。

[摊手]

～～～～～～

图源：google

信源：Whitwam, Ryan. “Testing Suggests Google’s AI Overviews Tell Millions of Lies per Hour.” Ars Technica, 8 Apr. 2026

Google的搜索引擎，现在每分钟大约要撒几十万个谎。一天下来，这个数字是几千万。

本帖子中包含更多资源

浏览过的版块