华为昇腾2秒吃透一道高数大题华为揭秘准万亿MoE训练系统现在,请大家一起数一下“

量子位看科技 2025-05-30 15:29:09

华为昇腾2秒吃透一道高数大题华为揭秘准万亿MoE训练系统

现在,请大家一起数一下“1”、“2”。

OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了!

而且啊,这个大模型还是不用GPU来训练,全流程都是大写的“国产”的那种。

这,就是华为通过“昇腾+Pangu Ultra MoE”这套组合拳解锁的效果——

不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先水平。

有多领先?来看一组数据:

- 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41%

- 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s

值得一提的是,华为还首次把背后的一大秘籍给亮了出来。

具体来说,华为在这次发布的技术报告中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习后训练框架的关键技术。

此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。

在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点:

0 阅读:33

猜你喜欢

量子位看科技

量子位看科技

感谢大家的关注