位置:首页 > 区块链 > Google AI 搜索准确率幻觉曝光:每小时数千万错误日志引发信任危机|深度调查

作者:克洛德,深潮 TechFlow

深潮导读:《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。

欧意 www.okx.com 若打不开请 点击跳转 下载请点击 [→] 官方app下载 [←]

币安 www.binance.com 若打不开请 点击跳转 下载请点击 [→] 官方app下载 [←]

Google AI 搜索准确率幻觉曝光:每小时数千万错误日志引发信任危机|深度调查_wishdown.com

Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。

《纽约时报》委托 AI 初创公司 Oumi,用 OpenAI 开发的行业标准测试集 SimpleQA 对 Google 的 AI Overviews 功能展开两轮实测:第一轮在去年 10 月,由 Gemini 2 驱动;第二轮在今年 2 月,系统已升级至 Gemini 3。两轮共覆盖 4326 个真实风格的搜索查询——从“如何判断蜂蜜是否变质”到“阿尔茨海默病早期症状有哪些”,再到“为什么金星自转方向与其他行星相反”。结果清晰浮现:Gemini 2 给出的答案中,约 85% 被判定为准确;Gemini 3 提升至 91%。

91%这个数字本身不低。可当它乘上 Google 每年 5 万亿次搜索的基数,误差便不再是个百分比——而是具象的、持续奔涌的流量洪流。按每小时 5.77 亿次搜索粗略折算,AI Overviews 每小时生成超过 5700 万条不准确摘要;每分钟近 100 万条;每一秒,约 1600 个用户正被推送一条未经验证、可能错误的信息。

答案对了,来源却是错的

真正让测试团队停顿几秒的,不是那 9% 的错误答案,而是那些“对得可疑”的答案。

Oumi 的逐条核查发现:在 Gemini 2 时代,每三份正确的 AI 摘要里,就有一份附带的引用链接根本没提过它所陈述的事实——链接点进去,是另一件事,或干脆是无关段落。到了 Gemini 3,这个比例非但没收敛,反而跃升至 56%。也就是说,超过一半的正确回答,背后找不到支撑它的原文依据。模型像一个记性极好却懒得翻笔记的学生:答案脱口而出,参考文献却张冠李戴。

Oumi CEO Manos Koukoumidis 在内部复盘会上说:“你看到一句话写着‘维生素D缺乏与抑郁症风险上升相关’,下面标着《柳叶刀》2023年一篇综述——可那篇综述通篇没提抑郁症。这时问题已经不在‘对不对’,而在‘你怎么信’。”

更微妙的是来源结构。Oumi 抓取了 AI Overviews 引用频次最高的前二十个域名,Facebook 排名第二,Reddit 排名第四。而在所有被判定为“不准确”的摘要中,Facebook 出现的频率是 7%;在“准确”摘要中,这一数字仅为 5%。平台越轻量、越开放,越容易被选中——不是因为权威,而是因为爬取顺畅、文本密集、结构松散,恰好匹配当前检索与摘要生成的耦合逻辑。

BBC 记者一篇假文章,24 小时内「投毒」成功

一名 BBC 科技记者悄悄注册了一个新域名,发布了一篇标题耸动、数据详尽的长文:《新型mRNA疫苗引发罕见神经炎症反应,临床试验已暂停》。文中嵌入了伪造的机构名称、篡改的论文编号、仿真的伦理审查批号,甚至配有生成的实验室设备图。全文未标注“虚构”,也未设任何免责声明。

他没有做任何推广,只将链接提交至 Google Search Console,并静待。22 小时 47 分钟后,当他用“mRNA 疫苗 神经炎症”搜索时,AI Overviews 直接在首屏顶部生成摘要:“多项临床观察指出……新型mRNA疫苗与神经炎症存在潜在关联,部分试验已暂缓推进。”并附上那篇假文章的链接,标注为“来源:HealthScienceReview.org”。

这不是理论推演。这是真实发生的、一次未经干预的、端到端的污染链路:内容生成 → 索引收录 → 摘要提取 → 用户触达。Google 发言人 Ned Adriance 后来回应称,该功能依赖与传统搜索相同的垃圾内容识别机制,“且多数测试查询在现实中极少发生”。但他没有说明,为何一个连人工编辑都需反复核验的医疗类断言,能在不到一天内绕过全部防护,成为数百万用户眼中的“事实摘要”。

Google 反驳:测试本身就有问题

Google 迅速发布了一份技术性质疑声明。声明指出,Oumi 所用的 SimpleQA 基准测试本身包含若干已被后续研究证伪的条目;Oumi 用自家模型 HallOumi 对 AI Overviews 输出进行评判,相当于“让同班同学互评作文”,可能放大误判;更重要的是,测试中大量问题采用“问答体”句式(如“X 是否导致 Y?”),而真实用户更多输入碎片化短语(如“苹果手机电池鼓包怎么办”),二者触发的检索路径与上下文建模完全不同。

值得注意的是,Google 自己的内部评估也透露出矛盾信号:当 Gemini 3 脱离搜索排名系统、仅以纯语言模型方式运行时,其幻觉率高达 28%。Google 强调,AI Overviews 的实际表现远优于该数值,因为它融合了网页权威性评分、时效权重、站点历史可信度等多维信号——换句话说,不是模型更准了,而是搜索系统在替它“兜底”。

PCMag 在跟进报道中写道:“如果一家公司的核心产品需要靠质疑评测工具的可靠性来辩护,而该工具本身又建立在它所销售的技术之上,那么这场对话的起点,或许早已偏离了准确性本身。”

来源:https://www.bitalk8.com/article/64765
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

精选合集

更多

大家都在玩

热门话题

大家都在看

更多