Google AI 搜索准确率幻觉曝光:每小时数千万错误日志引发信任危机|深度调查
时间:2026-04-11 | 作者: | 阅读:0作者:克洛德,深潮 TechFlow
深潮导读:《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。
欧意 www.okx.com 若打不开请 点击跳转 下载请点击 [→] 官方app下载 [←]
币安 www.binance.com 若打不开请 点击跳转 下载请点击 [→] 官方app下载 [←]

Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。
《纽约时报》委托 AI 初创公司 Oumi,用 OpenAI 开发的行业标准测试集 SimpleQA 对 Google 的 AI Overviews 功能展开两轮实测:第一轮在去年 10 月,由 Gemini 2 驱动;第二轮在今年 2 月,系统已升级至 Gemini 3。两轮共覆盖 4326 个真实风格的搜索查询——从“如何判断蜂蜜是否变质”到“阿尔茨海默病早期症状有哪些”,再到“为什么金星自转方向与其他行星相反”。结果清晰浮现:Gemini 2 给出的答案中,约 85% 被判定为准确;Gemini 3 提升至 91%。
91%这个数字本身不低。可当它乘上 Google 每年 5 万亿次搜索的基数,误差便不再是个百分比——而是具象的、持续奔涌的流量洪流。按每小时 5.77 亿次搜索粗略折算,AI Overviews 每小时生成超过 5700 万条不准确摘要;每分钟近 100 万条;每一秒,约 1600 个用户正被推送一条未经验证、可能错误的信息。
答案对了,来源却是错的
真正让测试团队停顿几秒的,不是那 9% 的错误答案,而是那些“对得可疑”的答案。
Oumi 的逐条核查发现:在 Gemini 2 时代,每三份正确的 AI 摘要里,就有一份附带的引用链接根本没提过它所陈述的事实——链接点进去,是另一件事,或干脆是无关段落。到了 Gemini 3,这个比例非但没收敛,反而跃升至 56%。也就是说,超过一半的正确回答,背后找不到支撑它的原文依据。模型像一个记性极好却懒得翻笔记的学生:答案脱口而出,参考文献却张冠李戴。
Oumi CEO Manos Koukoumidis 在内部复盘会上说:“你看到一句话写着‘维生素D缺乏与抑郁症风险上升相关’,下面标着《柳叶刀》2023年一篇综述——可那篇综述通篇没提抑郁症。这时问题已经不在‘对不对’,而在‘你怎么信’。”
更微妙的是来源结构。Oumi 抓取了 AI Overviews 引用频次最高的前二十个域名,Facebook 排名第二,Reddit 排名第四。而在所有被判定为“不准确”的摘要中,Facebook 出现的频率是 7%;在“准确”摘要中,这一数字仅为 5%。平台越轻量、越开放,越容易被选中——不是因为权威,而是因为爬取顺畅、文本密集、结构松散,恰好匹配当前检索与摘要生成的耦合逻辑。
BBC 记者一篇假文章,24 小时内「投毒」成功
一名 BBC 科技记者悄悄注册了一个新域名,发布了一篇标题耸动、数据详尽的长文:《新型mRNA疫苗引发罕见神经炎症反应,临床试验已暂停》。文中嵌入了伪造的机构名称、篡改的论文编号、仿真的伦理审查批号,甚至配有生成的实验室设备图。全文未标注“虚构”,也未设任何免责声明。
他没有做任何推广,只将链接提交至 Google Search Console,并静待。22 小时 47 分钟后,当他用“mRNA 疫苗 神经炎症”搜索时,AI Overviews 直接在首屏顶部生成摘要:“多项临床观察指出……新型mRNA疫苗与神经炎症存在潜在关联,部分试验已暂缓推进。”并附上那篇假文章的链接,标注为“来源:HealthScienceReview.org”。
这不是理论推演。这是真实发生的、一次未经干预的、端到端的污染链路:内容生成 → 索引收录 → 摘要提取 → 用户触达。Google 发言人 Ned Adriance 后来回应称,该功能依赖与传统搜索相同的垃圾内容识别机制,“且多数测试查询在现实中极少发生”。但他没有说明,为何一个连人工编辑都需反复核验的医疗类断言,能在不到一天内绕过全部防护,成为数百万用户眼中的“事实摘要”。
Google 反驳:测试本身就有问题
Google 迅速发布了一份技术性质疑声明。声明指出,Oumi 所用的 SimpleQA 基准测试本身包含若干已被后续研究证伪的条目;Oumi 用自家模型 HallOumi 对 AI Overviews 输出进行评判,相当于“让同班同学互评作文”,可能放大误判;更重要的是,测试中大量问题采用“问答体”句式(如“X 是否导致 Y?”),而真实用户更多输入碎片化短语(如“苹果手机电池鼓包怎么办”),二者触发的检索路径与上下文建模完全不同。
值得注意的是,Google 自己的内部评估也透露出矛盾信号:当 Gemini 3 脱离搜索排名系统、仅以纯语言模型方式运行时,其幻觉率高达 28%。Google 强调,AI Overviews 的实际表现远优于该数值,因为它融合了网页权威性评分、时效权重、站点历史可信度等多维信号——换句话说,不是模型更准了,而是搜索系统在替它“兜底”。
PCMag 在跟进报道中写道:“如果一家公司的核心产品需要靠质疑评测工具的可靠性来辩护,而该工具本身又建立在它所销售的技术之上,那么这场对话的起点,或许早已偏离了准确性本身。”
来源:https://www.bitalk8.com/article/64765
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 什么是Venice
- 时间:2026-04-04
-
- 华尔街“变脸”:大举增持比特币
- 时间:2026-04-04
-
- 比特币单周飙升8.55%
- 时间:2026-04-04
-
- OKX官网唯一登录入口
- 时间:2026-04-04
-
- 什么是 Story Protocol(IP)币?IP运作方式、内核特点及代币经济学
- 时间:2026-04-04
-
- Metaplanet成功融资2.55亿美元,引入购买比特币(BTC)认股权证新结构
- 时间:2026-04-04
-
- 手机号无法用于注册怎么办?火币HTX邮箱注册流程
- 时间:2026-04-04
-
- 一文读懂:PENGU胖企鹅要领涨全场?欧意OKEX普通人一步买PENGU
- 时间:2026-04-04
精选合集
更多大家都在玩
热门话题
大家都在看
更多-
- 供电更稳了 成都建成西南首个500千伏双环网 承载能力超2500万千瓦
- 时间:2026-04-11
-
- 惊爆 仙境传说重生公测时间大,错过等何时
- 时间:2026-04-11
-
- 改进矩阵工厂在哪里及吉普车制造方法图文详解
- 时间:2026-04-11
-
- 惊爆 魔法工艺游戏究竟藏着哪些令人心动的套装
- 时间:2026-04-11
-
- 空相:无为是行官网在哪下载 最新官方下载安装地址
- 时间:2026-04-11
-
- 惊爆 远光84夜巡玩法大,绝对让你意想不到
- 时间:2026-04-11
-
- 梦幻西游属性点切换攻略大 2026 年必看找谁切换属性点
- 时间:2026-04-11
-
- OpenAI指控马斯克临阵变更诉讼诉求 千亿赔偿案开庭前夕陷法律混战
- 时间:2026-04-11