通俗讲解DeepSeek开源:DeepGEMM,究竟是个啥?(第三弹)
时间:2025-04-24 | 作者: | 阅读:0deepseek开源周,继deepep之后,第三弹deepgemm震撼来袭。今天我们来探讨一下:
- 吃瓜:DeepGMEE是干什么用的?
- 技术:DeepGMEE是如何实现的?
- 普通人有什么用:对写提示词有什么启示?
【1】DeepGMEE是干什么用的?
DeepGMEE,全称General Matrix Multiplication,是一个FP8通用矩阵乘法库(library)。
画外音,FP8:8-bit Floating Point,8位浮点格式。
【2】关于FP8通用矩阵乘法
有人可能会问,矩阵乘法的优化值得这么吹吗?
矩阵乘法是现代AI计算的基石:
- 矩阵是数据表示的核心工具:神经网络中的权重、特征、参数传递等都使用矩阵表示;
- 矩阵乘法占大模型中90%的计算量:Transformer基操QKV运算、卷积计算、分层全连接计算等;
- 硬件优化的核心目标就是矩阵乘法计算。
传统AI的矩阵乘法通常使用NVIDIA开源的CUDA C++模板库CUTLASS,采用FP16/FP32格式,但存在一些不足:
- 占显存资源:FP32占显存是FP8的4倍;
- 资源利用率低:强制要求矩阵为2次幂尺寸(例如:128*128),容易出现显存碎片;
- 不支持MOE模型的分组矩阵计算;
- 部署复杂度高:需要编译,需要配置。
为什么之前不直接采用FP8呢?因为FP8虽然占用资源少,资源利用率高,但会带来精度损失。
高精度乘法:1.2 * 3.4 = 4.08
如果直接降低精度,用整数表示浮点数,变为1 * 3 = 3,精度损失是无法接受的。
我们可以对浮点数进行整数化编码处理:
步骤一:1.2用(12, 1)表示,其中1是小数位数;步骤二:3.4用(34, 1)表示;步骤三:1.2 3.4 = (12, 1) (34, 1) = (12*34, 1+1) = (408, 2)
如此一来,就没有精度损失了。
矩阵乘法的精度补偿比这个复杂,其核心思路是:使用低精度乘法矩阵快速计算,高精度加法补足。
结论就是:DeepSeek使用FP8就能完成FP16/FP32的计算,降低显存占用+提高显存利用率的同时,仍然能够保持高精度。
【3】DeepGMEE的特点
Git介绍中对DeepGMEE有三个关键形容词:
- 简洁(clean)
- 高效(efficient)
- 高精度(fine-grained scaling)
为什么说DeepGMEE简洁?
- 核心代码300行,而CUTLASS数千行;
- 零依赖(除CUDA),无需预编译,无需复杂环境配置;
- 注释清晰,便于学习与二次开发;
画外音:我看了一下,调整数据分块策略,只需要修改10-20行代码。
为什么说DeepGMEE高效?
这是FP8对比FP16/FP32的天然优势,相比CUTLASS:
- 显存占用下降50%+;
- MOE推理延时下降60%+;
- 计算密度(TFLOPS)提升了270%+;
为什么说DeepGEMM高精度?
采用FP8矩阵乘法加速计算,BF16累加修正精度的办法,平衡了速度与精度。
除此之外,DeepGEMM还有不少特色:
- 针对MOE优化,支持MOE分组矩阵乘法;
- 针对硬件加速;
- 动态编译JIT:运行时根据矩阵大小与硬件条件优化;
- 矩阵灵活尺寸对齐(例如:可以支持112*128矩阵);
上面种种,DeepGMEE本次最大的创新,我认为是:FP8优化,JIT优化,以及MOE优化。
【4】DeepGMEE是怎么做到的?
信息密度太大,头疼,有点学不过来了,感兴趣的同学去官网看吧,我Copy一下git的信息:
1. Persistent warp-specialization
2. Hopper TMA features
3. A unified and optimized block scheduler
4. Fully JIT design
5. Unaligned block sizes
6. FFMA SASS interleaving
7. Common detail optimizations
画外音:其实你也不想知道这些how?
【5】了解GEMM对普通人写提示词有什么启示?
没有启示,这东西和提示词没关系。
【6】结尾
对于DeepGEMM,我的思考是:
- 之前各大玩家都卷硬件,而忽略了软件的优化;
- 僵化思维真的很要命,一直以来都是FP16/FP32,大家也都用CUTLASS,它就一定是最优吗?
- 写代码,搞架构,少即是多:多写这类300行优美的代码,而不要在垃圾公司堆shi山;
先睡了,共勉!
画外音:球球deepseek,明天不要开源新东西了。
补充阅读材料:
《DeepGEMM》
可参考。
==全文完==
福利游戏
相关文章
更多-
- sai绘图软件如何制作熊猫?sai绘图软件制作熊猫操作过程分享
- 时间:2025-04-24
-
- 街猫app怎么投诉 街猫反馈问题方法
- 时间:2025-04-24
-
- 国家政务服务平台如何操作 国家政务服务平台操作绑定手机号方法
- 时间:2025-04-24
-
- 2025年ao3看文入口在哪-2025年如何找到ao3看文入口
- 时间:2025-04-24
-
- 小度如何连接手机?小度连接手机方法介绍
- 时间:2025-04-24
-
- QQ音乐下载的歌曲怎么导入U盘?下载的歌曲导入U盘图文步骤
- 时间:2025-04-24
-
- 抖音在线观看网页版 抖音在线刷视频入口
- 时间:2025-04-24
-
- 如何注销天翼云会议账号-天翼云会议账号注销方法
- 时间:2025-04-24
精选合集
更多大家都在玩
大家都在看
更多-
- 天地劫幽城再临新手开服第一天怎么玩
- 时间:2025-04-23
-
- 巴基斯坦航天员选拔工作正在进行:以专家身份参与联合飞行
- 时间:2025-04-23
-
- 天地劫幽城再临资源有哪些
- 时间:2025-04-23
-
- 两年巨变!上海车展韩法系“消失” 比亚迪成车圈“顶流” 小米首次亮相
- 时间:2025-04-23
-
- AVAX是不是崩盘了
- 时间:2025-04-23
-
- 比亚迪全新超跑腾势Z亮相上海车展:用上云辇-M专属车身控制
- 时间:2025-04-23
-
- 小米辟谣小米YU7推迟发布:6-7月上市不变
- 时间:2025-04-23
-
- 天地劫幽城再临海捕令怎么解锁
- 时间:2025-04-23