我国自主可控高速网络技术取得重大突破中科曙光发布首款全栈自研400G无损网络产品

问题：大模型训练与高通量推理需求快速攀升，万卡级乃至更大规模智算集群正在成为行业常态。

在此背景下，算力中心“算得快”之外，更要“连得快”。

业内实践表明，在大规模分布式训练中，网络通信开销已占整体耗时的30%至50%，网络能力直接决定集群效率、训练周期与资源利用率。

然而，数据中心高端高速互联长期依赖海外方案，在关键部件、协议栈与生态适配等方面存在外部不确定性，成为制约算力基础设施安全与高质量发展的突出短板。

原因：一方面，智算互联对时延、带宽与稳定性提出极致要求。

传统以CPU参与为主的传输模式难以满足大规模并行场景，远程直接内存访问（RDMA）因“零拷贝、内核旁路”等特性成为提升通信效率的关键技术路线。

另一方面，高端RDMA网络涉及芯片、网卡、交换系统、驱动与管理软件协同优化，研发门槛高、验证周期长、产业链牵引强，国内长期缺少从底层硬件到上层软件的成体系方案，导致大规模智算互联的自主供给能力不足。

影响：中科曙光此次发布并落地的scaleFabric，被业内视为国产高端原生RDMA网络的关键进展。

据企业介绍，该产品基于原生RDMA架构实现全栈自研，并已在郑州国家超算互联网核心节点工程部署，支撑3套万卡级scaleX智算集群上线运行，总规模达3万卡。

自今年2月以来，该节点工程吸引高校、科研院所、企业等3000余位用户参与测试，为多家模型研发与应用机构提供从系统环境部署、数据安全隔离，到大规模训练调试与推理验证等环节支撑。

中国工程院院士邬贺铨指出，高速网络是算力基础设施的关键核心技术，自主可控水平关系到国家算力基础设施的安全与发展质量。

随着国产原生高速互联的规模化验证推进，智算中心在供应链安全、运维可控与成本优化等方面有望获得更多主动权。

对策：从产品指标看，企业披露scaleFabric 400系列在技术规格上对标国际主流方案，网卡端到端通信时延低至0.9微秒，链路故障恢复时间小于1毫秒，并已支撑近万卡集群持续稳定运行验证超过10个月。

要把阶段性突破转化为产业性能力，仍需在三方面持续发力：其一，围绕关键芯片、驱动与管理软件持续迭代，形成可复制、可规模化交付的工程能力；其二，推动与计算、存储、安全、调度等系统协同优化，完善对典型大模型训练框架与推理平台的适配，提升“端到端”效率；其三，强化标准、测试与互操作体系建设，促进上下游企业与用户共同参与验证，降低迁移成本，加快生态成形。

前景：面向未来，算力基础设施正从“单点性能竞争”走向“系统级效率竞争”，高速互联将成为决定智算集群效能的核心变量之一。

随着国产原生RDMA技术路线逐步成熟，并在超算互联网节点等场景持续落地，我国在智算互联关键环节有望形成更清晰、更稳固的自主技术路径。

与此同时，需求侧对数据安全隔离、跨域协同训练、算力弹性调度的要求不断提升，也将倒逼网络产品向更高可靠、更易运维、更强兼容演进，为行业提供更坚实的“算力底座”。

算力是数字经济时代的核心生产要素，而高速互联网络则是算力体系得以高效运转的神经脉络。

长期以来，这一脉络的关键节点掌握在他人手中，始终是我国算力基础设施建设中难以回避的隐忧。

此次国产全栈自研高速网络的规模化落地，表明我国在补齐这一短板上迈出了实质性步伐。

技术自立从来不是一蹴而就的事，但每一次关键突破，都在为更坚实的产业根基添砖加瓦。

我国自主可控高速网络技术取得重大突破 中科曙光发布首款全栈自研400G无损网络产品

我国自主可控高速网络技术取得重大突破中科曙光发布首款全栈自研400G无损网络产品