Google AI 搜索准确率幻觉曝光：每小时数千万错误日志引发信任危机｜深度调查

时间：2026-04-11 | 作者： | 阅读：0

作者：克洛德，深潮 TechFlow

深潮导读：《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示，Google 搜索的 AI 摘要功能（AI Overviews）准确率约为 91%，但以 Google 年处理 5 万亿次搜索的体量换算，这意味着每小时产生数千万条错误答案。更棘手的是，即便答案正确，超过半数的引用链接也无法支撑其结论。

欧意 www.okx.com 若打不开请点击跳转下载请点击 [→] 官方app下载 [←]

币安 www.binance.com 若打不开请点击跳转下载请点击 [→] 官方app下载 [←]

Google AI 搜索准确率幻觉曝光：每小时数千万错误日志引发信任危机｜深度调查_wishdown.com

Google 正在以前所未有的规模向用户输送错误信息，而大多数人毫不知情。

《纽约时报》委托 AI 初创公司 Oumi，用 OpenAI 开发的行业标准测试集 SimpleQA 对 Google 的 AI Overviews 功能展开两轮实测：第一轮在去年 10 月，由 Gemini 2 驱动；第二轮在今年 2 月，系统已升级至 Gemini 3。两轮共覆盖 4326 个真实风格的搜索查询——从“如何判断蜂蜜是否变质”到“阿尔茨海默病早期症状有哪些”，再到“为什么金星自转方向与其他行星相反”。结果清晰浮现：Gemini 2 给出的答案中，约 85% 被判定为准确；Gemini 3 提升至 91%。

91%这个数字本身不低。可当它乘上 Google 每年 5 万亿次搜索的基数，误差便不再是个百分比——而是具象的、持续奔涌的流量洪流。按每小时 5.77 亿次搜索粗略折算，AI Overviews 每小时生成超过 5700 万条不准确摘要；每分钟近 100 万条；每一秒，约 1600 个用户正被推送一条未经验证、可能错误的信息。

答案对了，来源却是错的

真正让测试团队停顿几秒的，不是那 9% 的错误答案，而是那些“对得可疑”的答案。

Oumi 的逐条核查发现：在 Gemini 2 时代，每三份正确的 AI 摘要里，就有一份附带的引用链接根本没提过它所陈述的事实——链接点进去，是另一件事，或干脆是无关段落。到了 Gemini 3，这个比例非但没收敛，反而跃升至 56%。也就是说，超过一半的正确回答，背后找不到支撑它的原文依据。模型像一个记性极好却懒得翻笔记的学生：答案脱口而出，参考文献却张冠李戴。

Oumi CEO Manos Koukoumidis 在内部复盘会上说：“你看到一句话写着‘维生素D缺乏与抑郁症风险上升相关’，下面标着《柳叶刀》2023年一篇综述——可那篇综述通篇没提抑郁症。这时问题已经不在‘对不对’，而在‘你怎么信’。”

更微妙的是来源结构。Oumi 抓取了 AI Overviews 引用频次最高的前二十个域名，Facebook 排名第二，Reddit 排名第四。而在所有被判定为“不准确”的摘要中，Facebook 出现的频率是 7%；在“准确”摘要中，这一数字仅为 5%。平台越轻量、越开放，越容易被选中——不是因为权威，而是因为爬取顺畅、文本密集、结构松散，恰好匹配当前检索与摘要生成的耦合逻辑。

BBC 记者一篇假文章，24 小时内「投毒」成功

一名 BBC 科技记者悄悄注册了一个新域名，发布了一篇标题耸动、数据详尽的长文：《新型mRNA疫苗引发罕见神经炎症反应，临床试验已暂停》。文中嵌入了伪造的机构名称、篡改的论文编号、仿真的伦理审查批号，甚至配有生成的实验室设备图。全文未标注“虚构”，也未设任何免责声明。

他没有做任何推广，只将链接提交至 Google Search Console，并静待。22 小时 47 分钟后，当他用“mRNA 疫苗神经炎症”搜索时，AI Overviews 直接在首屏顶部生成摘要：“多项临床观察指出……新型mRNA疫苗与神经炎症存在潜在关联，部分试验已暂缓推进。”并附上那篇假文章的链接，标注为“来源：HealthScienceReview.org”。

这不是理论推演。这是真实发生的、一次未经干预的、端到端的污染链路：内容生成 → 索引收录 → 摘要提取 → 用户触达。Google 发言人 Ned Adriance 后来回应称，该功能依赖与传统搜索相同的垃圾内容识别机制，“且多数测试查询在现实中极少发生”。但他没有说明，为何一个连人工编辑都需反复核验的医疗类断言，能在不到一天内绕过全部防护，成为数百万用户眼中的“事实摘要”。

Google 反驳：测试本身就有问题

Google 迅速发布了一份技术性质疑声明。声明指出，Oumi 所用的 SimpleQA 基准测试本身包含若干已被后续研究证伪的条目；Oumi 用自家模型 HallOumi 对 AI Overviews 输出进行评判，相当于“让同班同学互评作文”，可能放大误判；更重要的是，测试中大量问题采用“问答体”句式（如“X 是否导致 Y？”），而真实用户更多输入碎片化短语（如“苹果手机电池鼓包怎么办”），二者触发的检索路径与上下文建模完全不同。

值得注意的是，Google 自己的内部评估也透露出矛盾信号：当 Gemini 3 脱离搜索排名系统、仅以纯语言模型方式运行时，其幻觉率高达 28%。Google 强调，AI Overviews 的实际表现远优于该数值，因为它融合了网页权威性评分、时效权重、站点历史可信度等多维信号——换句话说，不是模型更准了，而是搜索系统在替它“兜底”。

PCMag 在跟进报道中写道：“如果一家公司的核心产品需要靠质疑评测工具的可靠性来辩护，而该工具本身又建立在它所销售的技术之上，那么这场对话的起点，或许早已偏离了准确性本身。”

来源:https://www.bitalk8.com/article/64765
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。