中科曙光发布全栈自研400G无损高速网络scaleFabric,助力万卡级智算集群减少外部依赖

问题:人工智能大模型和高性能计算正快速向万卡、十万卡集群规模发展,算力系统的瓶颈逐渐从单机性能转向集群互联。低时延、高带宽、全程无损的RDMA网络成为关键基础设施。然而,高端高速网络市场长期被少数厂商主导,国内关键IP、交换芯片、网卡与交换机等核心环节依赖外部技术,面临供应风险、成本压力和技术升级受限等问题,难以满足超大规模智算中心对自主可控的迫切需求。 原因:通用以太网在拥塞控制和无损传输上存先天不足——后期调优不仅复杂——还会随着规模扩大显著增加运维成本和稳定性问题。而海外专用网络方案虽然性能成熟,但价格高昂且供应链不稳定,加上技术壁垒和生态限制,导致大型集群建设周期、扩容能力和长期可靠性受到影响。在超大规模场景下,网络性能不足会直接降低系统效率,甚至浪费算力资源。 影响:中科曙光发布的scaleFabric是国内首款原生RDMA高速网络系统,主打全栈自研、真无损和可量产。该系统从底层112G SerDes IP、核心芯片到网卡、交换机硬件,再到驱动和管理软件,全部实现自主研发,形成完整的芯片到系统闭环能力。目前,scaleFabric已在国家超算互联网郑州核心节点完成万卡级集群部署,标志着国产高速互联技术从“可用”进入“可规模化复制”阶段,为未来更大规模智算中心建设提供了实践样本。此外,其高端口密度和更低组网成本有助于降低集群建设门槛,让高性能网络从少数专用场景走向更广泛的行业应用。 对策:scaleFabric采用与InfiniBand类似的信用机制和链路重传机制,从硬件层面实现端到端无损传输,减少对复杂配置的依赖。同时,通过链路故障快速路由恢复技术,将故障恢复时间压缩至毫秒级,确保大规模扩展时的稳定性能。产品上,scaleFabric400系列包括单口标准网卡、1U 80口液冷交换机和2U 80口风冷交换机,适配不同数据中心环境,并支持未来向800G升级。在可靠性上,该产品已完成累计50万小时设备稳定测试和1100万小时端口链路测试,并通过多项环境验证,为长期运行和大规模交付提供保障。 前景:业界普遍认为,未来算力竞争将转向“算力—网络—存储”协同效率。高速无损互联不仅影响集群训练和推理性能,还关系到能耗、运维和扩容效率。scaleFabric的万卡级落地和量产进展,标志着国产高端高速网络技术正在加速成熟。下一步,能否提升软硬件生态适配、扩大应用验证范围,并在800G等下一代技术上保持迭代,将决定其在智算中心及多行业场景中的覆盖面和影响力。

在全球科技竞争格局深刻变化的背景下,关键核心技术的自主创新已成为国家战略;中科曙光的突破展示了中国企业在高端技术领域的实力,也为产业链协同创新提供了范例。随着更多“卡脖子”技术的攻克,中国数字基础设施建设正实现从跟跑到并跑、领跑的历史性跨越。