查看: 2|回复: 0

Google的搜索引擎,现在每分钟大约要撒几十万个谎。一天下来,这个数字是几千万。

[复制链接]

11

主题

1

回帖

35

积分

新手上路

积分
35
发表于 昨天 21:31 | 显示全部楼层 |阅读模式
Google的搜索引擎,现在每分钟大约要撒几十万个谎。一天下来,这个数字是几千万。


系统没有崩溃,这恰恰是它正常运转时的状态。

2024年起,Google在搜索结果页最顶端加了一个叫“AI概览”的功能。你搜任何问题,还没看到那些蓝色链接,一段由AI生成的摘要就替你总结好了答案。《纽约时报》最近和AI初创公司Oumi合作,用OpenAI发布的标准题库SimpleQA,给这个功能做了一次系统性体检。这个题库包含4000多道有明确答案的事实性问题。

体检结果:升级到最新的Gemini 3模型后,“AI概览”答对了91%的题。十道题对九道,在AI圈子里算得上高分。

但Google每天处理的搜索量是数十亿次。9%的错误率乘上这个基数,就是开头那个数字:每天有数千万条错误答案被推送到用户眼前。

测试报告里列了几个具体案例。

有一道题问鲍勃·马利的故居是哪一年被改建为博物馆。“AI概览”引用了3个网页,其中两个根本没提到日期,第3个是维基百科,上面列了两个互相矛盾的年份。“AI概览”自信地选了那个错的。

还有一道题问大提琴家马友友哪一年入选古典音乐名人堂。“AI概览”找到了名人堂官网上关于马友友的页面,但给出的回答是:不存在古典音乐名人堂这种东西。

它引用的网页上明明白白写着答案,它看了,然后说这东西不存在。

Google不认可这个测试。发言人内德·阿德里安斯对《纽约时报》说,SimpleQA本身就包含错误信息,Google内部用的是经过更严格筛选的SimpleQA Verified版本。他的原话是:这项研究漏洞很大,不能反映人们在Google上真正搜索的内容。

这个辩护有一个微妙的问题。Google说这些题目不代表真实搜索场景,但它并没有说自己的真实准确率更高。事实上,Google最近发布新模型时公开的基准测试数据显示,在没有外部数据辅助的情况下,Gemini模型的事实准确率大约在60%到80%之间。接入互联网搜索结果之后确实会更准,但从60%提到90%,和从90%提到100%,是完全不同的工程难度。

还有一个容易被忽略的细节。“AI概览”并不是每次都调用Google最强的模型。Google承认,系统会根据查询内容选择不同的模型。最准确的Gemini 3.1 Pro速度慢、成本高,大多数时候用户看到的是更快更便宜的Gemini Flash。Google需要在搜索页面加载速度和回答质量之间做取舍,而从目前的产品设计来看,速度赢了。

所有这些问题,其实都不是“AI概览”独有的。大模型本质上是概率机器,同一个问题问两遍,可能第一次答对第二次答错。Oumi做测试时用的评估工具本身也是AI,也会产生幻觉。在这个领域,连衡量准确率这件事本身都不够准确。

真正值得注意的,是产品逻辑和免责声明之间的裂缝。“AI概览”被放在搜索结果的最顶端,字号大,排版醒目,用的是陈述句语气,一切视觉信号都在暗示:这就是答案,不用再往下翻了。与此同时,每条AI摘要底部都挂着一行小字:AI可能出错,请自行核实。

一个号称能帮你省去翻阅网页时间的功能,最终给出的操作指南是:你最好自己再去翻一遍网页。

[摊手]

~~~~~~

图源:google

信源:Whitwam, Ryan. “Testing Suggests Google’s AI Overviews Tell Millions of Lies per Hour.” Ars Technica, 8 Apr. 2026


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部