DeepSeek V4深度:一次注意力机制的结构性颠覆
时间:2026-04-24 | 作者:318050 | 阅读:0DeepSeek-V4预览版解析:百万上下文如何成为“标配”?
DeepSeek发布了V4预览版,并且同步开源。公告里有一句话,分量不轻:
“从现在开始,1M(一百万)上下文将是DeepSeek所有官方服务的标配。”
欧意 www.okx.com 若打不开请 点击跳转 下载请点击 [→] 官方app下载 [←]
币安 www.binance.com 若打不开请 点击跳转 下载请点击 [→] 官方app下载 [←]
OpenAI和Google早就支持超长上下文了,这不算新闻。真正的难点在于成本。Transformer那套注意力机制,计算量会随着序列长度呈平方级增长——序列长度翻一倍,所需算力就得翻四倍。在传统架构下,处理100万个token的成本,几乎让商业化成为不可能的任务。
那么,DeepSeek V4是怎么做到的?技术报告给出了关键数据:在1M token的场景下,V4-Pro的单token推理计算量(FLOPs)只有上一代V3.2的27%,而KV缓存的用量更是降到了只有10%。
两把刀
标准Transformer的自注意力机制,要求每个token都得和序列里所有其他token计算一遍相关性权重。这是平方复杂度,是结构性问题,靠工程上的小修小补根本解决不了。
过去业界的主流应对方式,大体分两类:要么“切掉”计算范围,比如采用滑动窗口,只看局部邻居,但代价是失去了全局感知能力;要么“绕开”长文本本身,比如先用RAG检索出相关片段再喂给模型,但这又让检索质量成了新的性能天花板。还有一些固定模式的稀疏注意力方法,通过人工设计来跳过部分计算,但模式是死的,面对不同任务千差万别的信息分布,泛化能力实在有限。
V4给出的方案,是一套组合拳:CSA + HCA混合注意力架构。
CSA(压缩稀疏注意力),解决的是“算什么”的问题。它的思路很巧妙:先用一个轻量级的索引器对所有token对进行快速粗筛,估算出相关性的排序,然后再精准地挑出那些真正需要完整计算的token集合。这套机制的关键在于,其稀疏结构是可训练的——模型能在训练过程中自己学会,在哪些地方需要高密度的注意力,在哪些地方可以稀疏处理。这其实在V3.2时代的DSA(动态稀疏注意力)中已有雏形,V4是在此基础上做了进一步的演化。
HCA(重度压缩注意力),解决的则是“存什么”的问题。它在V3时代MLA(多头潜在注意力)的基础上继续推进,将KV向量映射到一个低维的“潜空间”进行压缩存储,推理时再解压使用。再叠加上FP4与FP8混合精度技术——MoE专家参数用FP4,其余用FP8——KV缓存的显存占用又被砍掉了一半。
CSA和HCA这两把刀叠加起来的效果,直接体现在了开头那两个数字上:27%的FLOPs,10%的KV缓存。换算成实际收益就是,在同等算力下,能够支持的长上下文并发服务量,大约是原来的3到4倍。
技术报告里还有两个细节值得圈点。一个是mHC(流形约束超连接),它对残差连接做了流形约束强化,专门针对1.6T参数这种超深度模型在训练时可能出现的跨层信号衰减问题。另一个是Muon优化器,它取代了Adam系列,基于矩阵正交化进行更新,在超大规模训练中收敛更快、更稳定——要知道,Adam几乎是大模型训练的默认配置,DeepSeek这次把它换掉了。
数字
官方给出了V4与Claude Opus 4.6、GPT-5.4 xHigh、Gemini 3.1 Pro High的全维度横向评测。
数学和竞赛推理是V4-Pro表现最突出的维度。Codeforces评分达到3206,在四家中最高(GPT-5.4是3168,Gemini和V4-Flash都是3052)。Apex Shortlist得分90.2,超过了Opus 4.6(85.9)、GPT-5.4(78.1)和Gemini(89.1)。IMOAnswerBench得分89.8,仅次于GPT-5.4(91.4)。
智能体(Agent)能力上,SWE Verified得分80.6,与Opus 4.6的80.8几乎持平。Toolathlon得分51.8,高于Opus 4.6的47.2,略低于GPT-5.4的54.6。公告里有一句内部评价很能说明问题:V4已成为员工进行Agentic Coding的主力模型,“使用体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6的非思考模式”。
长上下文测评有两个数字需要对比着看:MRCR 1M(长文本关键信息检索)得分83.5,高于Gemini的76.3,但低于Opus 4.6的92.9。CorpusQA 1M(长文档精准问答)得分62.0,低于Opus 4.6的71.7。MRCR更侧重检测关键信息是否存在,而CorpusQA则要求在百万token中精准定位并进行综合分析——这两个测评结果的分化,恰恰说明了模型在不同长文本任务上的能力特点。
在综合知识和科学前沿推理方面:SimpleQA-Verified得分57.9,低于Gemini的75.6。HLE(前沿科学推理超难题集)得分37.7,在四家中最低。
此外,V4-Flash版本也值得关注:284B总参数,13B激活参数,体量约为Pro版的18%,但同样支持1M上下文和Think/Think Max推理模式。官方称其在简单的Agent任务上与Pro版“旗鼓相当”。
DeepSeek将这次发布称为“预览版”,技术报告的标题里用的词是“Towards”——朝向,还在路上。CSA和HCA的设计逻辑今天已经公开,但这套稀疏训练机制在面对不同任务分布时具体表现如何,将是接下来开源社区需要共同探索和验证的事。
数据来源:DeepSeek官方公告《DeepSeek-V4 预览版:迈入百万上下文普惠时代》(2026年4月24日);技术报告 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
来源:整理自互联网
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 比特币价格受石油市场波动影响:会成为比特币的催化剂吗?
- 时间:2026-04-22
-
- 币安官网App安装链接
- 时间:2026-04-22
-
- 火必全球站官方下载地址 火必交易所官方App下载入口
- 时间:2026-04-22
-
- 怎样才能交易SOL币 欧易OKX交易所Solana现货购买官网入口
- 时间:2026-04-22
-
- 欧意OKEX官方平台登录入口 欧意交易所官方App最新版v6.203.0安卓下载
- 时间:2026-04-22
-
- 以太坊升级与比特币生态大跌新手抄底指南 币安交易所闪兑与资产管理全解析
- 时间:2026-04-22
-
- 怎样才能购买狗狗币 币安交易所狗狗币doge购买账户官网注册入口
- 时间:2026-04-22
-
- 怎样才能买到ORDI 奥迪币交易开户欧易OKX交易所官网入口
- 时间:2026-04-22
精选合集
更多大家都在玩
大家都在看
更多-
- 时空猎人觉醒下载地址
- 时间:2026-04-24
-
- 《最后的天空》连线大师成就指南
- 时间:2026-04-24
-
- 魔兽世界进军奎尔丹纳斯任务攻略
- 时间:2026-04-24
-
- 望月新手教程合辑
- 时间:2026-04-24
-
- 迷你世界各种物品介绍大全
- 时间:2026-04-24
-
- 王者荣耀王者之弈张宝强度分析
- 时间:2026-04-24
-
- 经观手机版如何新增发票信息-经观手机版新增发票信息的设置方法
- 时间:2026-04-24
-
- 《崩坏 星穹铁道》绯英技能解析
- 时间:2026-04-24