国产自研高速互联落地国家超算互联网核心节点,助推万卡级智算迈向“网络定效率”新阶段

问题:算力规模扩大,"网络"成新瓶颈 随着大模型训练和推理加速向规模化应用发展,行业对算力的需求从"能用"升级为"高效、稳定、可持续"。国家超算互联网平台试运行数据显示,已有数百家企业、高校和科研机构参与测试。随着万卡级集群成为标配,集群内部跨节点通信量激增,网络时延、拥塞和稳定性问题直接影响训练效率和资源利用率。研究表明,不同模型架构下,通信开销占总训练时间的比重持续增加,特别是在混合专家模型场景中,网络性能已成为主要制约因素,"网络拖后腿"现象日益明显。 原因:模型升级叠加应用爆发,传统方案力不从心 技术层面,大模型参数规模、数据量和并行度持续提升,导致跨卡通信需求呈指数级增长。同时,应用场景多样化要求算力网络同时支持训练、推理和智能体调用等多种负载,使网络长期处于高负荷状态。 产业层面,智算网络面临三大挑战:一是时延和拥塞控制难度加大,影响训练效率;二是算网协同复杂,需要硬件、协议栈和集群调度的深度适配;三是超大规模部署运维门槛高,网络可视化和故障定位能力成为关键。业内人士表示,传统高性能互连方案存在生态封闭、适配成本高等问题,亟需创新突破。 影响:竞争重点转向"系统效率",基础设施进入新阶段 全球范围内,数据中心和智算基础设施投资持续增加。我国算力规模虽稳步提升,但在超大规模集群的系统效率上仍有提升空间。对大模型训练而言,网络性能直接影响训练周期、成本和资源供给;对应用端而言,网络稳定性和时延则关乎服务质量和用户体验。 因此,算力基础设施的评价标准正在转变:从单一算力指标转向"算、网、存、管"协同的系统指标;从追求峰值性能转向注重持续吞吐和低时延;从单体建设转向平台化资源供给。可以说,在算力发展的新阶段,高速互连网络已成为关键能力。 对策:国产自研高速网络落地核心节点 近期发布的国产自研高速网络产品已部署在国家超算互联网核心节点。该产品针对无损RDMA等关键能力进行系统设计,涵盖从硬件到软件的全栈研发,旨在提升带宽、降低时延、扩大规模并控制成本。 数据显示,其交换设备具备高带宽端口能力,网卡端到端传输时延达微秒级,在规模扩展和成本控制上具有优势。业内人士认为,这类自主网络技术有助于缓解"算力增长快于网络升级"的矛盾,让算力更好地服务于科研和产业。 前景:以网络效率推动算力高质量发展 随着国家超算互联网和各地智算中心建设推进,算力资源将更加网络化和普惠化。高速网络的突破不仅代表产品升级,更标志着建设理念从"规模优先"转向"效率优先"。 未来行业可能呈现三大趋势:一是十万卡级资源调度需求上升,网络架构和管理软件更受重视;二是国产软硬件生态协同加速;三是网络可靠性将与算力同等重要。通过持续创新,我国有望构建更完善的高性能互连体系,为AI训练和工业智能化提供坚实基础。

从芯片到网络,中国科技企业正系统性地解决算力发展难题。这场技术革命表明,在新一轮科技竞争中,只有坚持自主创新与开放合作,才能在关键领域实现从追随到引领的跨越。随着更多创新方案的涌现,数字经济的发展基础将更加牢固。