AI大模型训练就像一场万人接力赛——成千上万张GPU卡得同步计算,每一步数据传输都得快、稳、不卡壳。可你知道吗?这场“接力”的“跑道”——高速网络,曾是国产智算的隐秘卡点:要么用国外垄断的IB(InfiniBand),贵得肉疼还怕断供;要么用RoCE,但性能跟不上万卡级集群的需求。直到最近,中科曙光把这条路跑通了。 他们发布了国内首款原生IB架构的RDMA高速网络scaleFabric,从最底层的112G SerDes IP,到交换芯片、网卡、交换机,再到上层软件,全栈都是自己研的——彻底摆脱了海外依赖。
性能更是能对标国际顶尖水平:网卡端到端通信时延低至0.9微秒,和英伟达CX7差不多;交换机转发时延不到260纳秒,单端口带宽800G,比主流RoCE领先1-2代。 最牛的是单子网能撑11.4万张GPU卡,是传统IB的2.33倍,链路坏了恢复只要1毫秒,训练的时候根本感觉不到。 更实在的是,它比进口IB便宜30%——性能没降,钱包压力先小了。
现在这张“国产高速网”已经在国家超算互联网郑州核心节点跑了10个月,支撑着3万卡规模的智算集群,累计服务了1万个客户,超10万项作业稳定运行。 以前部署万卡集群得花好几天,现在用scaleFabric只要36小时就搞定。中科院计算所的实测显示,它的通信性能能撑得起科学智能的高精度模拟;科大讯飞也在和曙光合作,把它用到星火大模型的训练里。
这事儿的分量远超一款产品——它补上了国产智算基础设施的“网络短板”。以前我们怕GPU被卡,现在连网络也能自己说了算了。 而且曙光没搞封闭,反而联合光合组织、联想开天这些伙伴建生态,让更多国产算力芯片能用上这张网。毕竟AI时代的算力竞争,从来不是单靠某一块芯片,而是整个系统的协同——网络稳了,万卡集群才能真正跑起来,大模型才能训得更快更顺。 你觉得未来国产AI算力的下一个突破点会是哪里?是更牛的GPU,还是更智能的网络?欢迎聊聊你的看法~


