统一软件栈验证千卡级训练能力国产GPU在FlagOS全要素实测中展现稳定与精度突破

人工智能技术加速迭代的背景下，大模型训练对计算硬件提出了更高要求；长期以来，高端GPU市场主要由国际厂商主导，国产芯片在稳定性、兼容性和计算效率等承受不小压力。智源研究院此次组织的“全要素验证”，首次在统一软件栈环境下对六款AI芯片开展系统测试。验证所采用的FlagOS系统集成了分布式训练框架、加速库等关键组件，形成较为完整的技术体系，也为国产芯片性能评估提供了可对照的参考标准。作为验证核心设备，摩尔线程MTT S5000表现为三上表现：稳定性方面，4机集群连续运行144小时无故障，完成1T Tokens数据量的万次迭代；精度控制方面，训练模型Loss曲线与国际基线的误差控制0.82%以内；在实际应用表现上，标准测试成绩较行业标杆提升1.65%。有关数据表明，国产GPU在可用性与易用性之间的长期差距正在缩小。取得进展的关键在于全栈协同优化。摩尔线程一上优化芯片架构的FP8计算单元，另一方面通过FlagCX通信库提升多卡协同效率，并提供Megatron-LM框架适配方案，使千卡集群线性扩展效率超过90%。此外，该成果已具身智能模型RoboBrain 2.5的1024卡训练中复现，误差深入降至0.62%，显示方案具备向更大规模复制的可行性。业内人士认为，此次验证带来三上影响：技术层面，有望削弱国际厂商在大模型训练领域的优势壁垒；产业层面，为国内AI企业提供更可验证的算力选择；战略层面，提升关键基础设施的自主可控能力。据透露，已有超过20家头部企业开始基于该平台推进大模型研发部署。面向下一阶段，国产GPU仍需补齐两项能力：其一是在更大规模集群（如万卡级）下持续提升稳定性，其二是加快完善开发者生态。摩尔线程表示，下一步将重点优化编译器工具链和算子库覆盖度，并计划在年内实现对主流大模型的“开箱即用”支持。

大模型训练是系统工程，决定效果的不只是算力峰值，更取决于长期稳定、精度可控以及生态的可复用性。以统一技术栈开展全要素验证，把“能不能用、好不好用、用得久不久”放到同一套标准下检验，有助于让产业评估更透明、路线更清晰。未来，持续推进软硬协同、开放验证与标准化建设，才能让算力底座更可靠地支撑创新落地，为数字经济高质量发展提供更稳固的基础。

统一软件栈验证千卡级训练能力 国产GPU在FlagOS全要素实测中展现稳定与精度突破

统一软件栈验证千卡级训练能力国产GPU在FlagOS全要素实测中展现稳定与精度突破