问题:大模型训练与高通量推理需求快速攀升,万卡级乃至更大规模智算集群正在成为行业常态。
在此背景下,算力中心“算得快”之外,更要“连得快”。
业内实践表明,在大规模分布式训练中,网络通信开销已占整体耗时的30%至50%,网络能力直接决定集群效率、训练周期与资源利用率。
然而,数据中心高端高速互联长期依赖海外方案,在关键部件、协议栈与生态适配等方面存在外部不确定性,成为制约算力基础设施安全与高质量发展的突出短板。
原因:一方面,智算互联对时延、带宽与稳定性提出极致要求。
传统以CPU参与为主的传输模式难以满足大规模并行场景,远程直接内存访问(RDMA)因“零拷贝、内核旁路”等特性成为提升通信效率的关键技术路线。
另一方面,高端RDMA网络涉及芯片、网卡、交换系统、驱动与管理软件协同优化,研发门槛高、验证周期长、产业链牵引强,国内长期缺少从底层硬件到上层软件的成体系方案,导致大规模智算互联的自主供给能力不足。
影响:中科曙光此次发布并落地的scaleFabric,被业内视为国产高端原生RDMA网络的关键进展。
据企业介绍,该产品基于原生RDMA架构实现全栈自研,并已在郑州国家超算互联网核心节点工程部署,支撑3套万卡级scaleX智算集群上线运行,总规模达3万卡。
自今年2月以来,该节点工程吸引高校、科研院所、企业等3000余位用户参与测试,为多家模型研发与应用机构提供从系统环境部署、数据安全隔离,到大规模训练调试与推理验证等环节支撑。
中国工程院院士邬贺铨指出,高速网络是算力基础设施的关键核心技术,自主可控水平关系到国家算力基础设施的安全与发展质量。
随着国产原生高速互联的规模化验证推进,智算中心在供应链安全、运维可控与成本优化等方面有望获得更多主动权。
对策:从产品指标看,企业披露scaleFabric 400系列在技术规格上对标国际主流方案,网卡端到端通信时延低至0.9微秒,链路故障恢复时间小于1毫秒,并已支撑近万卡集群持续稳定运行验证超过10个月。
要把阶段性突破转化为产业性能力,仍需在三方面持续发力:其一,围绕关键芯片、驱动与管理软件持续迭代,形成可复制、可规模化交付的工程能力;其二,推动与计算、存储、安全、调度等系统协同优化,完善对典型大模型训练框架与推理平台的适配,提升“端到端”效率;其三,强化标准、测试与互操作体系建设,促进上下游企业与用户共同参与验证,降低迁移成本,加快生态成形。
前景:面向未来,算力基础设施正从“单点性能竞争”走向“系统级效率竞争”,高速互联将成为决定智算集群效能的核心变量之一。
随着国产原生RDMA技术路线逐步成熟,并在超算互联网节点等场景持续落地,我国在智算互联关键环节有望形成更清晰、更稳固的自主技术路径。
与此同时,需求侧对数据安全隔离、跨域协同训练、算力弹性调度的要求不断提升,也将倒逼网络产品向更高可靠、更易运维、更强兼容演进,为行业提供更坚实的“算力底座”。
算力是数字经济时代的核心生产要素,而高速互联网络则是算力体系得以高效运转的神经脉络。
长期以来,这一脉络的关键节点掌握在他人手中,始终是我国算力基础设施建设中难以回避的隐忧。
此次国产全栈自研高速网络的规模化落地,表明我国在补齐这一短板上迈出了实质性步伐。
技术自立从来不是一蹴而就的事,但每一次关键突破,都在为更坚实的产业根基添砖加瓦。