开源MT-MegatronLM和MT-TransformerEngine|摩尔线程GPU原生FP8计算助力AI训练
时间:2025-03-14 | 作者: | 阅读:0近日,摩尔线程正式开源mt-megatronlm与mt-transformerengine两大ai框架。通过深度融合fp8混合训练策略和高性能算子库,这两大框架在国产全功能gpu上实现了高效的混合并行训练和推理,显著提升了训练效率与稳定性。摩尔线程是国内率先原生支持fp8计算精度的国产gpu企业,此次开源不仅为ai训练和推理提供了全新的国产化解决方案,更对推动国产gpu在ai大模型领域的应用具有重要意义。
▼?MT-MegatronLM开源地址:
https://github.com/MooreThreads/MT-MegatronLM
▼?MT-TransformerEngine开源地址:
https://github.com/MooreThreads/MT-TransformerEngine
框架介绍
MT-MegatronLM是面向全功能GPU的开源混合并行训练框架,支持dense模型、多模态模型及MoE(混合专家)模型的高效训练。该框架利用全功能GPU支持FP8混合精度策略、高性能算子库muDNN与集合通信库MCCL,可以显著提升国产全功能GPU集群的算力利用率。
MT-TransformerEngine主要用于Transformer模型的高效训练与推理优化,通过算子融合、并行加速策略等技术,充分释放摩尔线程全功能GPU高密度计算的潜力和memory bound算子的效率。
技术突破与优势
两大框架的技术突破集中体现在硬件适配与算法创新的深度协同:
▽?混合并行训练:支持Dense、多模态及MoE模型的混合并行训练,可灵活应对不同模型架构的复杂运算场景;
▽?FP8混合训练策略:结合摩尔线程GPU原生支持的FP8混合精度训练策略,能够有效提升训练效率;
▽?高性能算子库:通过高性能算子库muDNN与通信库MCCL的深度集成,系统性优化了计算密集型任务与多卡协同的通信开销;同时结合摩尔线程开源Simumax库,可自动进行并行策略搜索,并针对不同模型和加速环境spec最大化并行训练性能;
▽?异常训练处理:框架内置的rewind异常恢复机制,可自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性;
▽?完整的兼容性:两个框架兼容GPU主流生态,既保障了现有生态的平滑迁移,也为开发者构建自有的AI技术栈提供了底层支撑。
▼?摩尔线程Simumax开源地址:
https://github.com/MooreThreads/SimuMax
实际应用效果
在实际应用中,这两个框架的充分结合已经取得了显著的成果。这些成果不仅验证了框架的技术成熟度,也为国产GPU生态的规模化应用奠定了坚实基础。
▽?高效训练:在全功能GPU集群上,Llama3 8B模型的训练任务,可以利用FP8在loss几乎无损的情况下MFU达到90%以上;(如下图所示)
图注:利用摩尔线程FP8混合精度加速技术在loss无损的情况下得到28%的加速
▽?复现DeepSeek 满血版训练:摩尔线程已深度集成并开源对DeepSeek并行算法DualPipe的高效支持,MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架,成功实现DeepSeek V3训练流程的完整复现,支持MLA、MTP及多种专家平衡策略;
▽?性能大幅优化:通过多种Transformer算子融合技术,显著提升了内存带宽利用率,有效缓解memory bound瓶颈,进一步释放国产GPU的硬件潜力。
持续优化与生态共建
为加速国产GPU生态发展与建设,摩尔线程将持续优化MT-MegatronLM与MT-TransformerEngine框架,并引入一系列创新功能:
▽?Dual Pipe/ZeroBubble并行策略:进一步降低气泡率,提升并行训练效率;
▽?多种FP8优化策略:独创的FP8优化策略,提高训练的性能和稳定性;
▽?异步checkpoint策略:提高训练过程中的容错能力和效率;
▽?优化后的重计算策略:减少计算和显存开销,提高训练速度;
▽?容错训练策略:独创的容错训练算法,增强训练过程中的容错能力;
▽?集成摩尔线程FlashMLA和DeepGemm库:进一步释放摩尔线程GPU的算力和FP8计算能力,提升计算性能和效率。
摩尔线程始终致力于推动开源生态的发展,通过技术开放与生态共建,加速国产全功能GPU在AI计算领域的规模化应用,为更多用户提供更智能、高效的解决方案。
福利游戏
相关文章
更多-
- 悠星大陆超重惩罚是什么 超重惩罚介绍
- 时间:2025-04-04
-
- 燕云十六声游街减刑怎样触发-燕云十六声如何触发游街减刑
- 时间:2025-04-04
-
- 剑灵2斗战圣怎么打-剑灵2斗战圣boss打法攻略
- 时间:2025-04-04
-
- 龙之谷世界狮蝎怎么打-龙之谷世界狮蝎打法攻略
- 时间:2025-04-04
-
- 葫芦侠3楼如何修改游戏-葫芦侠3楼修改游戏的方法
- 时间:2025-04-04
-
- 余承东卸任车BU董事长:并非不管汽车业务
- 时间:2025-04-04
-
- 2025年助学贷款免息吗?仍延续免息政策及本金延期偿还
- 时间:2025-04-04
-
- ?DNF手游4.16版本更新内容总汇
- 时间:2025-04-04
精选合集
更多大家都在玩
大家都在看
更多-
- ETC币前景与价格走势分析
- 时间:2025-04-04
-
- Gemini更新指南:不更新的风险与好处
- 时间:2025-04-04
-
- Gate.io芝麻开门:安全高效的全球数字资产交易平台
- 时间:2025-04-04
-
- 底价近40亿元!南航挂牌转让10架波音B787-8飞机
- 时间:2025-04-04
-
- GWC环球币现状:被抓传闻与上交易平台展望
- 时间:2025-04-04
-
- 比特币初期购买攻略:从P2P到ATM机
- 时间:2025-04-04
-
- XLM:全球支付利器,快速低费
- 时间:2025-04-04
-
- 元宇宙运作揭秘:虚拟与现实的融合
- 时间:2025-04-04