国内唯一 阿里千问斩获NeurIPS 2025最佳论文奖
时间:2025-11-27 | 作者: | 阅读:011月27日,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队在注意力机制上的研究成果从全球5524篇论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控对大模型性能和训练的影响,据悉,该研究成果已应用于Qwen3-Next模型,并显著提升模型的性能与鲁棒性。
阿里通义千问研究成果被评为NeurIPS 2025最佳论文
门控是大模型应用最广泛的技术之一,它可以作为模型的“智能降噪耳机”,帮助模型过滤无效信息从而提升模型性能。近年来,AlphaFold2、Forgetting Transformer等学术界和工业界模型开始探索将门控和注意力机制结合,但都对门控在注意力机制中有效的原因缺乏探索,也没有大规模实践的经验。
此次,通义千问团队通过在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上训练超过 3.5 万亿 token,并对比 30 余组控制实验,首次清晰揭秘了其背后的原理,并展现了在注意力中使用门控形式最有效的方式及扩展成功实践。
注意力头是?注意力机制中的基本计算单元。实验结果显示,对各注意力头的输出进行门控,是提升模型性能最有效的方式。使用该方式,在引入额外1%参数、计算开销增加低于2%的情况下,可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升。研究还发现,该技术还能在更大规模的模型训练上实现更好的性能。
使用论文方法,在引入额外1%参数、计算开销增加低于2%的情况下,可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升
更深入的分析发现,注意力门控还解决了大模型长期存在的两大问题:注意力池(Attention Sink),即少量特殊token计算中产生很大的输出值、占据很高的注意力分数;巨量激活(Massive Activation),即模型激活中出现大于中位数数千倍的离群值。上述两个现象都容易在BF16等低精度训练中引发数值误差,影响训练稳定与低精度部署。该研究显示,门控注意力将首token的注意力占比从 46.7%降至4.8%,同时将最大激活值从1053降至94。
目前,该技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会表示:“我们认为该方法将被广泛采用,这项工作将极大推动社区对大语言模型中注意力机制的理解。”
通义千问团队表示:“对门控机制、模型机制等的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。”
据悉,目前阿里千问已开源300多款模型,涵盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一。
来源:https://news.mydrivers.com/1/1089/1089058.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 阿里发布电影级视频模型万相2.6 首次支持角色扮演功能
- 时间:2025-12-16
-
- 6B参数硬刚旗舰模型 阿里最新生图模型掀桌了
- 时间:2025-11-28
-
- 阿里要收缩投入?财报看没可能 拿下市场地位的闪购将继续打硬仗
- 时间:2025-11-27
-
- 阿里发布Qoder CLI 可在终端一键实现AI编程
- 时间:2025-10-16
-
- 实力就是这么硬!阿里开源千问3向量模型:性能狂增40%干翻谷歌、OpenAI
- 时间:2025-06-06
-
- 宝马被曝与阿里达成AI合作:加速汽车行业AI化
- 时间:2025-03-26
-
- 阿里在画一张什么样的AI蓝图?
- 时间:2025-03-26
精选合集
更多大家都在玩
大家都在看
更多-
- 山河同在第31集剧情介绍
- 时间:2025-12-19
-
- 量子跃迁米乐光年是什么游戏
- 时间:2025-12-19
-
- DNF2026龙神白金徽章选择
- 时间:2025-12-19
-
- DNF2026征战者白金徽章选择
- 时间:2025-12-19
-
- DNF2026光枪白金徽章选择
- 时间:2025-12-19
-
- 王昭君怎么从游走在哪里成功转型中路
- 时间:2025-12-19
-
- DNF2026专家白金徽章选择
- 时间:2025-12-19
-
- 伊莫伪装攻略
- 时间:2025-12-19

