问题:智算规模跃升,网络成效率“瓶颈” 当前,大模型参数规模持续增长,训练任务正从单机走向超大规模分布式,万卡集群逐步成为常态,更大规模的集群化部署也提速。在这个过程中,网络不再只是“传输通道”,而是直接影响训练效率和资源利用率的关键环节。业内普遍认为,分布式训练规模越大,通信开销占比越高;一旦网络在时延、带宽、丢包控制各上跟不上,就会拖累集群吞吐,出现“算力能堆起来、效率却发挥不出来”的矛盾。 原因:关键技术链条受制于人,替代方案仍有短板 从全球产业格局看,高性能计算与智算集群的主流高速互联方案长期集中少数海外厂商手中。以低时延、原生无损著称的RDMA技术体系,覆盖高速接口IP、交换芯片、网卡、交换设备及软件生态等多个环节,门槛高、协同难、周期长。任何关键环节出现供给波动,都可能带来成本上涨、交付受限和运维依赖等连锁影响。 另外,国内基于以太网叠加RDMA能力的路线虽已有应用,但在超大规模组网的确定性表现、运维复杂度、端到端无损能力等上仍面临挑战;部分核心器件对外部供应依赖较强,也难以满足智算基础设施对稳定、可控和持续演进的需求。 影响:网络自主能力事关算力安全与产业竞争力 算力基础设施正成为数字经济的重要底座。对智算中心而言,高速互联不仅影响模型训练周期与能耗,也影响产业链应对外部不确定性的能力。一旦高速网络环节受限,智算建设可能陷入“高端算力可获得、集群效率被卡住”的局面,进而影响科研推进和产业落地节奏。多位业内专家指出,高速网络是算力体系的关键基础,其自主可控水平直接关系到国家算力基础设施的安全性与发展质量。尤其大模型训练常态化、跨区域算力协同需求上升的背景下,更需要可规模化部署、可运维、可演进的国产方案支撑。 对策:全栈自研打通链路,推出400G无损RDMA产品 鉴于此,中科曙光于3月12日发布scaleFabric全栈自研400G无损高速网络产品,面向超大规模智算互联场景,以“端到端一体化”思路打通关键技术链条。该产品覆盖112G SerDes IP、交换芯片、400G网卡、交换机,以及驱动与管理软件等环节,强调全栈协同优化,提升性能确定性和运维可控性。 关键指标上,scaleFabric 400网卡基于PCIe 5.0接口,单端口带宽达400Gbps,端到端通信时延低至0.9微秒级,针对大模型训练对“低时延、超高带宽、无损传输”的核心需求进行优化。无损机制上,产品采用基于信用的流控方式,降低拥塞丢包风险,并强化链路稳定性与故障快速恢复能力,目标是在集群规模扩展时保持性能稳定,避免网络变大后时延明显上升。企业表示,该方案已在近万卡规模环境中开展长周期稳定性验证,并在涉及的算力节点进行应用测试,为后续规模化部署积累工程经验。 前景:以应用牵引完善生态,推动算力基础设施高质量发展 从产业发展看,高端网络互联的突破只是第一步,后续能否形成持续竞争力,关键在三上:一是持续迭代核心器件与系统软件,通过工程化优化把性能优势转化为稳定交付能力;二是依托智算中心、超算平台和行业客户的真实负载,持续完善运维体系、调度策略与故障自治能力,降低大规模组网门槛;三是推进生态与标准协同,增强与主流计算平台、训练框架、存储系统的适配,形成可复制、可推广的整体方案。随着全国一体化算力体系建设推进,跨域互联、异构算力协同、能效优化等新需求将持续出现;国产高速网络若能在规模应用中形成正向循环,有望加快补齐智算基础设施短板,增强产业链韧性与安全水平。
核心技术自主创新是数字中国建设的重要支撑。中科曙光此次进展表明,只要持续聚焦关键技术攻关,我国在高端信息技术领域具备实现能力跃升的基础。在全球数字化竞争加速的背景下,掌握核心技术主动权,才能减少关键环节受制于人的风险,为高质量发展提供更稳固的安全保障。