6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升
时间:2025-06-09 | 作者: | 阅读:0近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。
测试成绩揭晓后,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩脱颖而出,并列第一,仅在第6道单选题上稍有失分。深度求索的DeepSeek和阿里的通义也表现不俗,分别获得63分和62分。然而,百度的文心X1Turbo在多选题和填空题上频繁失误,仅获得51分。尤为引人注目的是,OpenAI的o3在此次测试中表现欠佳,仅获得34分,正确率仅为47%,远低于其他模型。
在单选题环节,豆包、通义、元宝和文心X1Turbo表现相当,均斩获35分。不过,DeepSeek因图片识别问题在两道单选题上失分,而o3更是在多道单选题上出现错误,甚至在“送分题”上栽了跟头。多选题部分,豆包、DeepSeek和元宝展现出了稳定的发挥,三道题全部答对。通义虽然解题速度快,但因步骤分析简略,导致在一道题上失误。文心X1Turbo在多选题上表现不佳,两道题答错,一道题未响应。o3则因不适应多选题规则,一道题都没能全对。填空题部分,豆包、DeepSeek、通义和元宝四家大模型均斩获满分,而文心X1Turbo因最后一步处理不当而失分。
尽管如此,与去年相比,今年大模型的数学推理能力有了显著提升。去年,大模型在高考数学题上的表现普遍不佳,甚至出现基础计算错误。而今年,除o3外,其他五款模型均突破及格线,豆包和元宝更是保持了93%的正确率。此外,大模型在反思能力和推理步骤上也展现出进步,遇到问题时不再固执己见,而是会推倒重来,进行验证。同时,除了通义外,其他大模型都能系统性地展示完整的推理链路,帮助用户深入理解问题本质。
对于想要了解更多AI大模型相关信息,或是寻找最适合自己的AI产品的用户,推荐访问AIbase产品库网站(https://top.aibase.com)。该网站致力于智能匹配最适合用户的AI产品和网站,帮助用户轻松找到满足需求的AI解决方案。网友们也对此次测试表示高度关注,纷纷留言讨论各大模型的表现,并对未来大模型的发展充满期待。
来源:https://www.chinaz.com/2025/0609/1691129.shtml
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 2026年北京高考英语作文出炉:今年帮李华写信谈AI
- 时间:2026-06-08
-
- 江苏一考生8点59才发现走错考场 铁骑2分钟送达
- 时间:2026-06-08
-
- 上海部分考生的高考已提前结束:仅一天就考完了
- 时间:2026-06-08
-
- 曾参加高考16次!唐尚珺回应已年入百万:这个说法太夸张了
- 时间:2026-06-07
-
- 韦东奕账号评论区成考生“许愿池”:大批网友留言希望高考顺利
- 时间:2026-06-06
-
- 2026高考明天开考!教育部发布提醒:不要带手机、智能手表/眼镜
- 时间:2026-06-06
-
- 别忘了最后一道大题写个“解”:空白即为零分 非常可惜
- 时间:2026-06-06
-
- 考前必看!高考安检新变化:多地提醒
- 时间:2026-06-05
精选合集
更多大家都在玩
热门话题
大家都在看
更多-
- 万神殿战略城市建造游戏《Theos: Cities of Myth》将于今年登陆PC平台
- 时间:2026-06-08
-
- 上帝模拟游戏《Ornelia》将以抢先体验的形式登陆PC平台
- 时间:2026-06-08
-
- 美间导入酷家乐户型图矢量文件详细教程
- 时间:2026-06-08
-
- 美间家居海报制作全攻略 快速上手技巧分享
- 时间:2026-06-08
-
- 日语配音秀App核心功能全面解析与使用指南
- 时间:2026-06-08
-
- 单人僵尸撤离类游戏《Pale Tide》将登陆PC平台
- 时间:2026-06-08
-
- 蚂蚁庄园今日答案最新6.9 6月9日庄园每日答题答案
- 时间:2026-06-08
-
- 美间智能排版软件使用教程与操作指南
- 时间:2026-06-08