我国自主可控高速网络技术取得重大突破 中科曙光发布首款全栈自研400G无损网络产品

问题:大模型训练与高通量推理需求快速攀升,万卡级乃至更大规模智算集群正在成为行业常态。

在此背景下,算力中心“算得快”之外,更要“连得快”。

业内实践表明,在大规模分布式训练中,网络通信开销已占整体耗时的30%至50%,网络能力直接决定集群效率、训练周期与资源利用率。

然而,数据中心高端高速互联长期依赖海外方案,在关键部件、协议栈与生态适配等方面存在外部不确定性,成为制约算力基础设施安全与高质量发展的突出短板。

原因:一方面,智算互联对时延、带宽与稳定性提出极致要求。

传统以CPU参与为主的传输模式难以满足大规模并行场景,远程直接内存访问(RDMA)因“零拷贝、内核旁路”等特性成为提升通信效率的关键技术路线。

另一方面,高端RDMA网络涉及芯片、网卡、交换系统、驱动与管理软件协同优化,研发门槛高、验证周期长、产业链牵引强,国内长期缺少从底层硬件到上层软件的成体系方案,导致大规模智算互联的自主供给能力不足。

影响:中科曙光此次发布并落地的scaleFabric,被业内视为国产高端原生RDMA网络的关键进展。

据企业介绍,该产品基于原生RDMA架构实现全栈自研,并已在郑州国家超算互联网核心节点工程部署,支撑3套万卡级scaleX智算集群上线运行,总规模达3万卡。

自今年2月以来,该节点工程吸引高校、科研院所、企业等3000余位用户参与测试,为多家模型研发与应用机构提供从系统环境部署、数据安全隔离,到大规模训练调试与推理验证等环节支撑。

中国工程院院士邬贺铨指出,高速网络是算力基础设施的关键核心技术,自主可控水平关系到国家算力基础设施的安全与发展质量。

随着国产原生高速互联的规模化验证推进,智算中心在供应链安全、运维可控与成本优化等方面有望获得更多主动权。

对策:从产品指标看,企业披露scaleFabric 400系列在技术规格上对标国际主流方案,网卡端到端通信时延低至0.9微秒,链路故障恢复时间小于1毫秒,并已支撑近万卡集群持续稳定运行验证超过10个月。

要把阶段性突破转化为产业性能力,仍需在三方面持续发力:其一,围绕关键芯片、驱动与管理软件持续迭代,形成可复制、可规模化交付的工程能力;其二,推动与计算、存储、安全、调度等系统协同优化,完善对典型大模型训练框架与推理平台的适配,提升“端到端”效率;其三,强化标准、测试与互操作体系建设,促进上下游企业与用户共同参与验证,降低迁移成本,加快生态成形。

前景:面向未来,算力基础设施正从“单点性能竞争”走向“系统级效率竞争”,高速互联将成为决定智算集群效能的核心变量之一。

随着国产原生RDMA技术路线逐步成熟,并在超算互联网节点等场景持续落地,我国在智算互联关键环节有望形成更清晰、更稳固的自主技术路径。

与此同时,需求侧对数据安全隔离、跨域协同训练、算力弹性调度的要求不断提升,也将倒逼网络产品向更高可靠、更易运维、更强兼容演进,为行业提供更坚实的“算力底座”。

算力是数字经济时代的核心生产要素,而高速互联网络则是算力体系得以高效运转的神经脉络。

长期以来,这一脉络的关键节点掌握在他人手中,始终是我国算力基础设施建设中难以回避的隐忧。

此次国产全栈自研高速网络的规模化落地,表明我国在补齐这一短板上迈出了实质性步伐。

技术自立从来不是一蹴而就的事,但每一次关键突破,都在为更坚实的产业根基添砖加瓦。