DeepSeek V4深度：一次注意力机制的结构性颠覆

时间：2026-04-24 | 作者：318050 | 阅读：0

DeepSeek-V4预览版解析：百万上下文如何成为“标配”？

DeepSeek发布了V4预览版，并且同步开源。公告里有一句话，分量不轻：

“从现在开始，1M（一百万）上下文将是DeepSeek所有官方服务的标配。”

欧意 www.okx.com 若打不开请点击跳转下载请点击 [→] 官方app下载 [←]

币安 www.binance.com 若打不开请点击跳转下载请点击 [→] 官方app下载 [←]

OpenAI和Google早就支持超长上下文了，这不算新闻。真正的难点在于成本。Transformer那套注意力机制，计算量会随着序列长度呈平方级增长——序列长度翻一倍，所需算力就得翻四倍。在传统架构下，处理100万个token的成本，几乎让商业化成为不可能的任务。

那么，DeepSeek V4是怎么做到的？技术报告给出了关键数据：在1M token的场景下，V4-Pro的单token推理计算量（FLOPs）只有上一代V3.2的27%，而KV缓存的用量更是降到了只有10%。

两把刀

标准Transformer的自注意力机制，要求每个token都得和序列里所有其他token计算一遍相关性权重。这是平方复杂度，是结构性问题，靠工程上的小修小补根本解决不了。

过去业界的主流应对方式，大体分两类：要么“切掉”计算范围，比如采用滑动窗口，只看局部邻居，但代价是失去了全局感知能力；要么“绕开”长文本本身，比如先用RAG检索出相关片段再喂给模型，但这又让检索质量成了新的性能天花板。还有一些固定模式的稀疏注意力方法，通过人工设计来跳过部分计算，但模式是死的，面对不同任务千差万别的信息分布，泛化能力实在有限。

V4给出的方案，是一套组合拳：CSA + HCA混合注意力架构。

CSA（压缩稀疏注意力），解决的是“算什么”的问题。它的思路很巧妙：先用一个轻量级的索引器对所有token对进行快速粗筛，估算出相关性的排序，然后再精准地挑出那些真正需要完整计算的token集合。这套机制的关键在于，其稀疏结构是可训练的——模型能在训练过程中自己学会，在哪些地方需要高密度的注意力，在哪些地方可以稀疏处理。这其实在V3.2时代的DSA（动态稀疏注意力）中已有雏形，V4是在此基础上做了进一步的演化。

HCA（重度压缩注意力），解决的则是“存什么”的问题。它在V3时代MLA（多头潜在注意力）的基础上继续推进，将KV向量映射到一个低维的“潜空间”进行压缩存储，推理时再解压使用。再叠加上FP4与FP8混合精度技术——MoE专家参数用FP4，其余用FP8——KV缓存的显存占用又被砍掉了一半。

CSA和HCA这两把刀叠加起来的效果，直接体现在了开头那两个数字上：27%的FLOPs，10%的KV缓存。换算成实际收益就是，在同等算力下，能够支持的长上下文并发服务量，大约是原来的3到4倍。

技术报告里还有两个细节值得圈点。一个是mHC（流形约束超连接），它对残差连接做了流形约束强化，专门针对1.6T参数这种超深度模型在训练时可能出现的跨层信号衰减问题。另一个是Muon优化器，它取代了Adam系列，基于矩阵正交化进行更新，在超大规模训练中收敛更快、更稳定——要知道，Adam几乎是大模型训练的默认配置，DeepSeek这次把它换掉了。

数字

官方给出了V4与Claude Opus 4.6、GPT-5.4 xHigh、Gemini 3.1 Pro High的全维度横向评测。

数学和竞赛推理是V4-Pro表现最突出的维度。Codeforces评分达到3206，在四家中最高（GPT-5.4是3168，Gemini和V4-Flash都是3052）。Apex Shortlist得分90.2，超过了Opus 4.6（85.9）、GPT-5.4（78.1）和Gemini（89.1）。IMOAnswerBench得分89.8，仅次于GPT-5.4（91.4）。

智能体（Agent）能力上，SWE Verified得分80.6，与Opus 4.6的80.8几乎持平。Toolathlon得分51.8，高于Opus 4.6的47.2，略低于GPT-5.4的54.6。公告里有一句内部评价很能说明问题：V4已成为员工进行Agentic Coding的主力模型，“使用体验优于Claude Sonnet 4.5，交付质量接近Opus 4.6的非思考模式”。

长上下文测评有两个数字需要对比着看：MRCR 1M（长文本关键信息检索）得分83.5，高于Gemini的76.3，但低于Opus 4.6的92.9。CorpusQA 1M（长文档精准问答）得分62.0，低于Opus 4.6的71.7。MRCR更侧重检测关键信息是否存在，而CorpusQA则要求在百万token中精准定位并进行综合分析——这两个测评结果的分化，恰恰说明了模型在不同长文本任务上的能力特点。

在综合知识和科学前沿推理方面：SimpleQA-Verified得分57.9，低于Gemini的75.6。HLE（前沿科学推理超难题集）得分37.7，在四家中最低。

此外，V4-Flash版本也值得关注：284B总参数，13B激活参数，体量约为Pro版的18%，但同样支持1M上下文和Think/Think Max推理模式。官方称其在简单的Agent任务上与Pro版“旗鼓相当”。

DeepSeek将这次发布称为“预览版”，技术报告的标题里用的词是“Towards”——朝向，还在路上。CSA和HCA的设计逻辑今天已经公开，但这套稀疏训练机制在面对不同任务分布时具体表现如何，将是接下来开源社区需要共同探索和验证的事。

数据来源：DeepSeek官方公告《DeepSeek-V4 预览版：迈入百万上下文普惠时代》（2026年4月24日）；技术报告 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

来源:整理自互联网
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。