国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务
时间:2026-05-20 | 作者: | 阅读:05月20日消息,阿里巴巴在2026阿里云峰会上,正式发布了全新一代千问旗舰模型Qwen3.7-Max。
在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini最强模型接近,位列国产模型第一。
这是千问旗舰模型近三个月内的第三次重大迭代,从3.5到3.6再到3.7,阿里大模型研发节奏明显加速。
Qwen3.7-Max面向智能体(Agent)场景全新设计,在多个核心维度实现突破。
编程方面,在SWE-Pro、SWE-Multilingual等编程智能体测评中均取得领先,Terminal Bench 2.0-Terminus得分69.7,超过DeepSeek-v4-pro-Max和Claude-Opus4.6等。
通用智能体方面,Qwen3.7-Max在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试中表现优异,超越GLM5.1、Kimi-K2.6等模型,创下国产新高。
推理方面,在GPQA Diamond、HLE、HMMT 2026 Feb等推理核心测评中超越Claude-Opus4.6及所有国产模型。
通用能力上,Qwen3.7-Max在指令遵循IFBench评测中得分79.1分创下新高,多语言评测WMT24++、MAXIFE中同样领先。
实战任务测试中,在一个模型训练时从未接触过的全新硬件平台平头哥真武M890芯片上,Qwen3.7-Max在没有任何性能分析数据、硬件文档或新架构的示例内核情况下,从空白工作空间出发,自主完成了推理内核优化任务。
整个过程持续35小时,模型独立进行了432次内核评估和1158次工具调用,完全自主地完成了编写、编译、性能分析与迭代改进的全流程。
最终优化后的推理内核较SGLang Triton官方参考实现取得了10倍加速。
测试轨迹显示,模型在独立运行超过30小时后仍能发现有效优化点,甚至主动发起了一次关键的架构重设计。
在Agent能力方面,Qwen3.7-Max展现出跨框架泛化能力,在Claude Code、OpenClaw、Qwen Code等框架下均能稳定发挥。
通过MCP集成和多智能体协作,该模型在办公自动化基准SpreadSheetBench-v1上斩获87分,处于顶尖水平。
阿里云表示,Qwen3.7-Max API即将上线百炼平台,后续还将推出Qwen3.7-Plus等版本,覆盖从编程智能体到视觉智能体的全场景需求。
来源:https://news.mydrivers.com/1/1123/1123554.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 美国政府将干预新AI模型发布:全球五大前沿实验室均已加入
- 时间:2026-05-06
-
- 迄今最智能、最全能!月之暗面发布Kimi K2.5模型:让人人精通Office
- 时间:2026-01-27
-
- 硬件不够软件来凑!苹果开发DarkDiff AI模型:解决极低光照拍摄难题
- 时间:2025-12-21
-
- 阿里发布电影级视频模型万相2.6 首次支持角色扮演功能
- 时间:2025-12-16
-
- 准确率92%!苹果新模型可通过行为模式预测怀孕
- 时间:2025-07-11
-
- OpenAI CEO奥特曼:美国模型最先进 但领先中国的幅度并不大
- 时间:2025-05-11
精选合集
更多大家都在玩
大家都在看
更多-
- 2026年Steam特卖活动时间表与日期安排
- 时间:2026-05-21
-
- 流放之路S21赛季新技能20级伤害数据详解
- 时间:2026-05-21
-
- 重返未来1999后验者聚落玩法攻略与技巧解析
- 时间:2026-05-21
-
- 洛克王国S2赛季焚毁技能效果与实战调整解析
- 时间:2026-05-21
-
- 沙特因战乱财政承压,暂停新增咨询机构合作项目
- 时间:2026-05-21
-
- 红色沙漠野狼追踪者头盔获取方法详细图文攻略
- 时间:2026-05-21
-
- 保卫萝卜4波仔很忙第8关通关图文攻略
- 时间:2026-05-21
-
- 深海迷航冰点之下螺旋草切割物获取位置与采集技巧
- 时间:2026-05-21

