国产万卡智算集群实现99.99%超高可用性 技术突破助力人工智能产业自主可控

问题:大模型训练正进入“规模化”阶段,算力集群的规模和稳定性,成为影响产业推进的关键因素。万卡级集群建设门槛高,在长周期、高并发、强耦合的训练任务中,一旦关键节点故障,轻则任务中断,重则训练回退,带来显著的时间与设备成本。对由多家国产芯片搭建的异构集群来说,芯片架构差异、软件栈适配、通信与调度策略不一致等问题叠加,稳定运行更具挑战,行业长期面临“建得起、跑不稳、用不满”的难题。 原因:国内GPU等算力芯片厂商数量增加,但受研发起点、生态成熟度、工艺条件和规模效应等因素影响,仍需要在真实业务场景中加快验证与迭代。同时,大模型训练对算力供给提出的是“综合能力”要求:不仅要算得快,还要连得稳、调度准、修复快。这意味着从硬件到系统软件、从网络互联到资源管理、从故障诊断到运维流程,都要形成可工程化、可平台化的能力。如果缺少统一底座和工具链,资源容易碎片化、利用率难提升、故障恢复慢,最终影响算力对产业创新的支撑效果。 影响:上海智能算力科技有限公司在上海松江建设国产万卡异构智算中心,完成多款国产GPU卡及多套国产并行计算系统的软硬件适配测试,并逐步形成规模化、专业化、集约化的运营模式。该中心实现集群99.99%可用性,全年不可用时间控制在1小时以内;同时具备分钟级甚至秒级的故障预定位能力,并可在5分钟内恢复业务,降低训练中断带来的系统性风险。涉及的成果已在多模态大模型训练等场景中验证,为长周期训练提供更稳定的算力保障,也为国产算力芯片获得关键应用场景、完善生态适配提供了可复制的工程参考。 对策:根据“用得起来、用得高效、用得放心”目标,该公司在软件和运维两端同步推进。一是以平台化提升资源组织效率,上线具备自主知识产权的智算云平台,基于微服务架构提供训推优化、数据集成、模型研发、云平台管理及跨域算力调度等能力,推动算力从“设备堆叠”转向“服务供给”。二是以关键软件带动生态完善,组建专业软件团队,并与清华大学等开展国产并行计算软件、编程框架、通信库、算子库及训推工具链研发,持续提升模型算力利用率(MFU)与集群调度效率。三是以工程化运维保障稳定性,面向万卡规模下“故障常态化”的现实,强化可观测性、预定位与快速修复能力,尽量降低单点故障对整体训练任务的影响。公司相关负责人表示,多元异构算力在提供应用场景、推动国产厂商迭代的同时,也有助于结合不同行业业务特点做差异化适配,更好发挥国产软硬件在细分领域的优势。 前景:面向下一阶段,国产智算基础设施的竞争将从“算力规模”转向“综合能力”,核心指标包括稳定性、能效、软件生态、调度效率与跨域协同等。随着大模型向行业深处落地,金融、制造、科研、文旅等领域对算力需求将更趋多样化、专业化,异构协同将成为提升供给弹性的重要路径。业内人士认为,以上海为代表的算力基础设施建设加快落地,有望带动国产芯片、系统软件、框架工具与行业应用形成更紧密的协同创新链条,在自主可控与产业效率之间找到更好的平衡,为我国人工智能产业高质量发展提供更坚实的支撑。

从“建得起”到“跑得稳”,万卡级智算集群的价值不只在于规模,更在于面向复杂场景的工程能力和生态能力。以真实业务牵引技术迭代、以平台化建设提升资源效率、以可靠性体系保障连续运行,正成为国产算力走向规模应用的关键路径,也为我国人工智能产业高质量发展打下更稳固的基础。