国产万卡智算集群实现99.99%超高可用性技术突破助力人工智能产业自主可控

问题：大模型训练正进入“规模化”阶段，算力集群的规模和稳定性，成为影响产业推进的关键因素。万卡级集群建设门槛高，在长周期、高并发、强耦合的训练任务中，一旦关键节点故障，轻则任务中断，重则训练回退，带来显著的时间与设备成本。对由多家国产芯片搭建的异构集群来说，芯片架构差异、软件栈适配、通信与调度策略不一致等问题叠加，稳定运行更具挑战，行业长期面临“建得起、跑不稳、用不满”的难题。原因：国内GPU等算力芯片厂商数量增加，但受研发起点、生态成熟度、工艺条件和规模效应等因素影响，仍需要在真实业务场景中加快验证与迭代。同时，大模型训练对算力供给提出的是“综合能力”要求：不仅要算得快，还要连得稳、调度准、修复快。这意味着从硬件到系统软件、从网络互联到资源管理、从故障诊断到运维流程，都要形成可工程化、可平台化的能力。如果缺少统一底座和工具链，资源容易碎片化、利用率难提升、故障恢复慢，最终影响算力对产业创新的支撑效果。影响：上海智能算力科技有限公司在上海松江建设国产万卡异构智算中心，完成多款国产GPU卡及多套国产并行计算系统的软硬件适配测试，并逐步形成规模化、专业化、集约化的运营模式。该中心实现集群99.99%可用性，全年不可用时间控制在1小时以内；同时具备分钟级甚至秒级的故障预定位能力，并可在5分钟内恢复业务，降低训练中断带来的系统性风险。涉及的成果已在多模态大模型训练等场景中验证，为长周期训练提供更稳定的算力保障，也为国产算力芯片获得关键应用场景、完善生态适配提供了可复制的工程参考。对策：根据“用得起来、用得高效、用得放心”目标，该公司在软件和运维两端同步推进。一是以平台化提升资源组织效率，上线具备自主知识产权的智算云平台，基于微服务架构提供训推优化、数据集成、模型研发、云平台管理及跨域算力调度等能力，推动算力从“设备堆叠”转向“服务供给”。二是以关键软件带动生态完善，组建专业软件团队，并与清华大学等开展国产并行计算软件、编程框架、通信库、算子库及训推工具链研发，持续提升模型算力利用率（MFU）与集群调度效率。三是以工程化运维保障稳定性，面向万卡规模下“故障常态化”的现实，强化可观测性、预定位与快速修复能力，尽量降低单点故障对整体训练任务的影响。公司相关负责人表示，多元异构算力在提供应用场景、推动国产厂商迭代的同时，也有助于结合不同行业业务特点做差异化适配，更好发挥国产软硬件在细分领域的优势。前景：面向下一阶段，国产智算基础设施的竞争将从“算力规模”转向“综合能力”，核心指标包括稳定性、能效、软件生态、调度效率与跨域协同等。随着大模型向行业深处落地，金融、制造、科研、文旅等领域对算力需求将更趋多样化、专业化，异构协同将成为提升供给弹性的重要路径。业内人士认为，以上海为代表的算力基础设施建设加快落地，有望带动国产芯片、系统软件、框架工具与行业应用形成更紧密的协同创新链条，在自主可控与产业效率之间找到更好的平衡，为我国人工智能产业高质量发展提供更坚实的支撑。

从“建得起”到“跑得稳”，万卡级智算集群的价值不只在于规模，更在于面向复杂场景的工程能力和生态能力。以真实业务牵引技术迭代、以平台化建设提升资源效率、以可靠性体系保障连续运行，正成为国产算力走向规模应用的关键路径，也为我国人工智能产业高质量发展打下更稳固的基础。

国产万卡智算集群实现99.99%超高可用性 技术突破助力人工智能产业自主可控

国产万卡智算集群实现99.99%超高可用性技术突破助力人工智能产业自主可控