6个AI大模型大战2025年高考数学新一卷：数学题推理能力均显著提升

时间：2025-06-09 | 作者： | 阅读：0

近日，随着高考的圆满结束，一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试，以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题，满分设定为73分，且测试过程严格遵循高考判分原则，确保结果的公正性与准确性。

测试成绩揭晓后，字节跳动的豆包和腾讯的元宝（T1）以68分的总成绩脱颖而出，并列第一，仅在第6道单选题上稍有失分。深度求索的DeepSeek和阿里的通义也表现不俗，分别获得63分和62分。然而，百度的文心X1Turbo在多选题和填空题上频繁失误，仅获得51分。尤为引人注目的是，OpenAI的o3在此次测试中表现欠佳，仅获得34分，正确率仅为47%，远低于其他模型。

在单选题环节，豆包、通义、元宝和文心X1Turbo表现相当，均斩获35分。不过，DeepSeek因图片识别问题在两道单选题上失分，而o3更是在多道单选题上出现错误，甚至在“送分题”上栽了跟头。多选题部分，豆包、DeepSeek和元宝展现出了稳定的发挥，三道题全部答对。通义虽然解题速度快，但因步骤分析简略，导致在一道题上失误。文心X1Turbo在多选题上表现不佳，两道题答错，一道题未响应。o3则因不适应多选题规则，一道题都没能全对。填空题部分，豆包、DeepSeek、通义和元宝四家大模型均斩获满分，而文心X1Turbo因最后一步处理不当而失分。

尽管如此，与去年相比，今年大模型的数学推理能力有了显著提升。去年，大模型在高考数学题上的表现普遍不佳，甚至出现基础计算错误。而今年，除o3外，其他五款模型均突破及格线，豆包和元宝更是保持了93%的正确率。此外，大模型在反思能力和推理步骤上也展现出进步，遇到问题时不再固执己见，而是会推倒重来，进行验证。同时，除了通义外，其他大模型都能系统性地展示完整的推理链路，帮助用户深入理解问题本质。

对于想要了解更多AI大模型相关信息，或是寻找最适合自己的AI产品的用户，推荐访问AIbase产品库网站（https://top.aibase.com）。该网站致力于智能匹配最适合用户的AI产品和网站，帮助用户轻松找到满足需求的AI解决方案。网友们也对此次测试表示高度关注，纷纷留言讨论各大模型的表现，并对未来大模型的发展充满期待。

《夸克》非常好用的免费AI浏览器

下载APP查看