中科曙光发布自研高速互联技术scaleFabric——万卡集群实测性能领先——填补国产算力网络核心空白

问题:算力规模扩大,但网络瓶颈制约集群效率 大模型训练、科学计算和工程仿真等场景中,算力竞争已从单块加速卡的性能转向大规模处理器的协同能力。计算任务需要频繁交换梯度、参数和中间结果,网络互联的时延、带宽和拥塞控制能力直接影响并行训练效率。如果互联链路不足——算力规模越大——等待时间反而越长,不仅浪费资源,还会延长研发周期,增加能耗和运维成本。高性能互联被视为算力基础设施的“关键底座”,其重要性不亚于计算芯片本身。 原因:核心技术受制于人,供给与升级面临挑战 全球范围内,InfiniBand等高性能互联技术凭借低时延、高带宽和RDMA(远程直接内存访问)能力,长期主导超算和大规模集群市场。然而,该领域的高端产品和关键环节高度集中,形成技术、生态和供应链的多重壁垒:一上,关键芯片、接口和协议栈紧密耦合,用户往往被迫“成套”采购;另一方面,产品供应、授权费用、交付周期等因素制约算力中心的建设和扩容。随着万卡级集群的普及,“稳定连接、高效运行、灵活扩展”成为迫切需求,自主可控的互联技术显得尤为重要。 影响:突破互联瓶颈,提升系统效率与产业链协同 scaleFabric方案针对大规模集群互联需求,覆盖高速SerDes IP、交换芯片到协议与系统软件等关键环节,并已真实场景中验证。测试数据显示,其端到端时延低于1微秒,并行效率达85%,优于基于以太网的RoCE方案。目前,该技术已在国家超算互联网郑州核心节点部署3套万卡集群。业内人士指出,超大规模集群的性能上限常由互联能力决定。若能实现技术突破并规模化应用,将大幅提升算力中心资源利用率,加速训练与仿真任务落地,同时为国产算力基础设施提供更稳定的供应保障。 对策:以工程验证推动标准、生态与应用协同 高速互联是软硬件协同、端网一体的系统工程,需从三上优化:一是扩大真实负载下的稳定性与可靠性验证,完善监控、诊断和运维体系,降低大规模部署门槛;二是加强计算芯片、服务器、存储及调度平台的适配优化,实现从链路层到上层通信库的全链路性能调优;三是推动产业链协作与标准化,构建开放生态,避免新的技术垄断风险。 前景:自主高速互联将释放算力基础设施潜力 随着我国算力建设从规模扩张转向效率优先,高性能互联的重要性日益凸显。未来,大模型训练、科学计算等行业应用对网络提出更高要求:更低时延、更高带宽、更强的拥塞控制与能效表现。若国产高速互联方案能在更多场景规模化应用,并与超算互联网、算力调度平台协同发展,有望将“单点性能优势”转化为“系统效率优势”,推动我国算力基础设施向自主可控与可持续发展迈进。 结语 核心技术自主创新是建设数字强国的关键。中科曙光scaleFabric的突破表明,坚持自主创新才能在关键领域实现从跟跑到领跑的跨越。这个成果不仅是技术突破,更是我国科技创新能力提升的体现。未来,期待更多创新成果为高质量发展注入动力。

核心技术自主创新是建设数字强国的关键。中科曙光scaleFabric的突破表明,坚持自主创新才能在关键领域实现从跟跑到领跑的跨越。这个成果不仅是技术突破,更是我国科技创新能力提升的体现。未来,期待更多创新成果为高质量发展注入动力。