阿里千问最强模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro
时间:2026-01-27 | 作者: | 阅读:01月26日消息,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。
通过总参数、强化学习、推理计算的极致规模扩展,千问新模型实现了性能的大幅飞跃,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。
Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超万亿(1T),预训练数据量高达36T Tokens。
此前,预览版Qwen3-Max-Thinking斩获数学推理AIME 25和HMMT 25的国内首个双满分,推理性能已让人惊艳;在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能。
在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了数项最佳表现(SOTA)纪录,整体性能可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro 。
在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,推理性能提升的同时还更经济。
业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。
基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,录得当前所有模型的最高分。
面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。
具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。
这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅;同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。
来源:https://news.mydrivers.com/1/1100/1100642.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 央视两会聚焦智能经济:千问“AI办事”让大模型走进日常生活
- 时间:2026-03-09
-
- 碾压Meta!千问AI眼镜MWC发布:AI定义硬件 一句话办事月底上线
- 时间:2026-03-05
-
- 马云刚定调谈AI 阿里千问负责人林俊旸辞职 团队调整内情曝光
- 时间:2026-03-04
-
- 千问app软件AI创作教程
- 时间:2026-03-03
-
- 正面硬刚Meta!千问AI眼镜MWC首秀 与全球巨头对垒
- 时间:2026-03-03
-
- 统一了!阿里大模型 未来都叫“千问”
- 时间:2026-03-02
-
- 全球唯一!阿里云上线Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5四大顶尖开源模型
- 时间:2026-02-25
-
- 千问第二波免单恰逢情人节 县城钟点房帮订量暴增约300%
- 时间:2026-02-15
精选合集
更多大家都在玩
大家都在看
更多-
- 大道仙途手游上线时间是哪天
- 时间:2026-03-20
-
- 冷酷美丽网名男生霸气(精选100个)
- 时间:2026-03-20
-
- 地位升级了 内存被美光定义为战略物资:想买要签5年长期合同
- 时间:2026-03-20
-
- 大道仙途手游下载地址分享
- 时间:2026-03-20
-
- 中世纪战略 RPG《王座空悬》现已公开 并加入Hooded Horse发行
- 时间:2026-03-20
-
- 《粒粒的小人国》安家测试开启-预约量突破800万引期待
- 时间:2026-03-20
-
- 一些好听爱的网名男生(精选100个)
- 时间:2026-03-20
-
- 我在末世有间超市好玩吗 我在末世有间超市玩法简介
- 时间:2026-03-20
