中科曙光发布自研高速互联技术scaleFabric——万卡集群实测性能领先—

问题：算力规模扩大，但网络瓶颈制约集群效率大模型训练、科学计算和工程仿真等场景中，算力竞争已从单块加速卡的性能转向大规模处理器的协同能力。计算任务需要频繁交换梯度、参数和中间结果，网络互联的时延、带宽和拥塞控制能力直接影响并行训练效率。如果互联链路不足——算力规模越大——等待时间反而越长，不仅浪费资源，还会延长研发周期，增加能耗和运维成本。高性能互联被视为算力基础设施的“关键底座”，其重要性不亚于计算芯片本身。原因：核心技术受制于人，供给与升级面临挑战全球范围内，InfiniBand等高性能互联技术凭借低时延、高带宽和RDMA（远程直接内存访问）能力，长期主导超算和大规模集群市场。然而，该领域的高端产品和关键环节高度集中，形成技术、生态和供应链的多重壁垒：一上，关键芯片、接口和协议栈紧密耦合，用户往往被迫“成套”采购；另一方面，产品供应、授权费用、交付周期等因素制约算力中心的建设和扩容。随着万卡级集群的普及，“稳定连接、高效运行、灵活扩展”成为迫切需求，自主可控的互联技术显得尤为重要。影响：突破互联瓶颈，提升系统效率与产业链协同 scaleFabric方案针对大规模集群互联需求，覆盖高速SerDes IP、交换芯片到协议与系统软件等关键环节，并已真实场景中验证。测试数据显示，其端到端时延低于1微秒，并行效率达85%，优于基于以太网的RoCE方案。目前，该技术已在国家超算互联网郑州核心节点部署3套万卡集群。业内人士指出，超大规模集群的性能上限常由互联能力决定。若能实现技术突破并规模化应用，将大幅提升算力中心资源利用率，加速训练与仿真任务落地，同时为国产算力基础设施提供更稳定的供应保障。对策：以工程验证推动标准、生态与应用协同高速互联是软硬件协同、端网一体的系统工程，需从三上优化：一是扩大真实负载下的稳定性与可靠性验证，完善监控、诊断和运维体系，降低大规模部署门槛；二是加强计算芯片、服务器、存储及调度平台的适配优化，实现从链路层到上层通信库的全链路性能调优；三是推动产业链协作与标准化，构建开放生态，避免新的技术垄断风险。前景：自主高速互联将释放算力基础设施潜力随着我国算力建设从规模扩张转向效率优先，高性能互联的重要性日益凸显。未来，大模型训练、科学计算等行业应用对网络提出更高要求：更低时延、更高带宽、更强的拥塞控制与能效表现。若国产高速互联方案能在更多场景规模化应用，并与超算互联网、算力调度平台协同发展，有望将“单点性能优势”转化为“系统效率优势”，推动我国算力基础设施向自主可控与可持续发展迈进。结语核心技术自主创新是建设数字强国的关键。中科曙光scaleFabric的突破表明，坚持自主创新才能在关键领域实现从跟跑到领跑的跨越。这个成果不仅是技术突破，更是我国科技创新能力提升的体现。未来，期待更多创新成果为高质量发展注入动力。

核心技术自主创新是建设数字强国的关键。中科曙光scaleFabric的突破表明，坚持自主创新才能在关键领域实现从跟跑到领跑的跨越。这个成果不仅是技术突破，更是我国科技创新能力提升的体现。未来，期待更多创新成果为高质量发展注入动力。

中科曙光发布自研高速互联技术scaleFabric——万卡集群实测性能领先——填补国产算力网络核心空白