国产AI算力新突破！IB网络性能对标国际，成本大降

AI新视界 2026-03-14 08:36:36

AI大模型训练就像一场万人接力赛——成千上万张GPU卡得同步计算，每一步数据传输都得快、稳、不卡壳。可你知道吗？这场“接力”的“跑道”——高速网络，曾是国产智算的隐秘卡点：要么用国外垄断的IB（InfiniBand），贵得肉疼还怕断供；要么用RoCE，但性能跟不上万卡级集群的需求。直到最近，中科曙光把这条路跑通了。他们发布了国内首款原生IB架构的RDMA高速网络scaleFabric，从最底层的112G SerDes IP，到交换芯片、网卡、交换机，再到上层软件，全栈都是自己研的——彻底摆脱了海外依赖。

性能更是能对标国际顶尖水平：网卡端到端通信时延低至0.9微秒，和英伟达CX7差不多；交换机转发时延不到260纳秒，单端口带宽800G，比主流RoCE领先1-2代。最牛的是单子网能撑11.4万张GPU卡，是传统IB的2.33倍，链路坏了恢复只要1毫秒，训练的时候根本感觉不到。更实在的是，它比进口IB便宜30%——性能没降，钱包压力先小了。

现在这张“国产高速网”已经在国家超算互联网郑州核心节点跑了10个月，支撑着3万卡规模的智算集群，累计服务了1万个客户，超10万项作业稳定运行。以前部署万卡集群得花好几天，现在用scaleFabric只要36小时就搞定。中科院计算所的实测显示，它的通信性能能撑得起科学智能的高精度模拟；科大讯飞也在和曙光合作，把它用到星火大模型的训练里。

这事儿的分量远超一款产品——它补上了国产智算基础设施的“网络短板”。以前我们怕GPU被卡，现在连网络也能自己说了算了。而且曙光没搞封闭，反而联合光合组织、联想开天这些伙伴建生态，让更多国产算力芯片能用上这张网。毕竟AI时代的算力竞争，从来不是单靠某一块芯片，而是整个系统的协同——网络稳了，万卡集群才能真正跑起来，大模型才能训得更快更顺。你觉得未来国产AI算力的下一个突破点会是哪里？是更牛的GPU，还是更智能的网络？欢迎聊聊你的看法～