华为昇腾2秒吃透一道高数大题华为揭秘准万亿MoE训练系统
现在,请大家一起数一下“1”、“2”。
OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了!
而且啊,这个大模型还是不用GPU来训练,全流程都是大写的“国产”的那种。
这,就是华为通过“昇腾+Pangu Ultra MoE”这套组合拳解锁的效果——
不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先水平。
有多领先?来看一组数据:
- 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41%
- 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s
值得一提的是,华为还首次把背后的一大秘籍给亮了出来。
具体来说,华为在这次发布的技术报告中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习后训练框架的关键技术。
此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。
在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点: