推理效率超NV H100!华为展示CloudMatrix 384“超级AI服务器”:384颗昇腾NPU+192颗鲲鹏CPU全对等互联
时间:2025-07-01 | 作者: | 阅读:07月1日消息,前不久,华为创始人任正非接受《人民日报》采访时为中国芯片指路——芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。
他坦言,我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。
任正非认为,中国在中低端芯片上是可以有机会的,中国数十、上百家芯片公司都很努力。特别是化合物半导体机会更大。硅基芯片,我们用数学补物理、非摩尔补摩尔,利用集群计算的原理,可以达到满足我们现在的需求。
那华为是怎么做的呢?
日前,华为云官微通过一段视频展示了CloudMatrix 384超节点算力集群的威力——
384颗昇腾NPU(昇腾910C)+192颗鲲鹏CPU全对等互联,形成一台“超级AI服务器”;
业界最大单卡推理吞吐量——2300Tokens/s;
业界最大集群算力——16万卡,万卡线性度高达95%;
云上确定性运维-40天长稳训练、10分钟快速恢复。
华为云表示,新一代昇腾AI云服务,是最适合大模型应用的算力服务。
此前,华为还发布了一一篇60页的重磅论文,提出了他们的下一代AI数据中心架构设计构想——Huawei CloudMatrix,以及该构想的第一代产品化的实现CloudMatrix384。
简单来说,华为CloudMatrix并非简单的“堆卡”,而是通过高带宽全对等互联(Peer-to-Peer)来设计,这也是CloudMatrix 384硬件架构的一大创新。
传统的AI集群中,CPU相当于公司领导的角色,NPU等其它硬件更像是下属,数据传输的过程中就需要CPU审批和签字,效率就会大打折扣。
但在CloudMatrix384中,CPU和NPU等硬件更像是一个扁平化管理的团队,它们之间的地位比较平等,直接通过UB网络通信直接对话,效率自然就上来了。
另外,论文还介绍了基于CloudMatrix384进行DeepSeek推理的最佳实践方案——CloudMatrix-Infer。
从官方给出的案例来看,CloudMatrix384预填充吞吐量达6688 token/s/NPU,解码阶段1943 token/s/NPU;计算效率方面,预填充达4.45 token/s/TFLOPS,解码阶段1.29 token/s/TFLOPS,均超过NVIDIA H100/H800上实现的性能。
来源:https://news.mydrivers.com/1/1057/1057078.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- DeepSeek V4被曝下月发布:100M上下文 全面用国产AI芯片训练
- 时间:2025-09-29
-
- 三亿鼠标的枪战梦想延续!穿越火线手游鸿蒙版正式上线
- 时间:2025-09-28
-
- 全球首个!华为、浙大联合开发“AI育种”芯片 效率提升100倍
- 时间:2025-09-26
-
- 2025 中国制造业企业 500 强公布:中石化第一,华为、比亚迪前十
- 时间:2025-09-21
-
- 华为全新小折叠nova Flip S首曝:鸿蒙5.0、5000元价位段
- 时间:2025-09-21
-
- 华为张平安:华为384昇腾AI云服务已上线 未来超节点规格将升到8192卡
- 时间:2025-09-19
-
- 住酒店再也不担心了!华为推出全球首款防偷拍AP:识别率高达99%
- 时间:2025-09-19
-
- 华为:美国制裁下台积电不能给我们产芯片 但已实现突破
- 时间:2025-09-19
大家都在玩
大家都在看
更多-
- 小红书笔记的修改或删除方法是什么?修改笔记之后会有影响吗?
- 时间:2025-09-30
-
- 抖音蓝v续费一年多少钱?蓝v年审过期了怎么办?
- 时间:2025-09-30
-
- 当地抖音来客服务商怎么找?服务商加入抖音来客有什么好处?
- 时间:2025-09-30
-
- 抖音账号违规申诉怎么写内容?违规申诉写内容有影响吗?
- 时间:2025-09-30
-
- 抖音的子账号怎么设置密码?它的超级福袋怎么设置?
- 时间:2025-09-30
-
- 漫威争锋怎么设置灵敏度
- 时间:2025-09-30
-
- 百家号养一个号要多久?养号有什么技巧吗?
- 时间:2025-09-30
-
- 心动小镇圣诞节限定活动都有什么
- 时间:2025-09-30