人工智能技术加速迭代的背景下,大模型训练对计算硬件提出了更高要求;长期以来,高端GPU市场主要由国际厂商主导,国产芯片在稳定性、兼容性和计算效率等承受不小压力。智源研究院此次组织的“全要素验证”,首次在统一软件栈环境下对六款AI芯片开展系统测试。验证所采用的FlagOS系统集成了分布式训练框架、加速库等关键组件,形成较为完整的技术体系,也为国产芯片性能评估提供了可对照的参考标准。作为验证核心设备,摩尔线程MTT S5000表现为三上表现:稳定性方面,4机集群连续运行144小时无故障,完成1T Tokens数据量的万次迭代;精度控制方面,训练模型Loss曲线与国际基线的误差控制0.82%以内;在实际应用表现上,标准测试成绩较行业标杆提升1.65%。有关数据表明,国产GPU在可用性与易用性之间的长期差距正在缩小。取得进展的关键在于全栈协同优化。摩尔线程一上优化芯片架构的FP8计算单元,另一方面通过FlagCX通信库提升多卡协同效率,并提供Megatron-LM框架适配方案,使千卡集群线性扩展效率超过90%。此外,该成果已具身智能模型RoboBrain 2.5的1024卡训练中复现,误差深入降至0.62%,显示方案具备向更大规模复制的可行性。业内人士认为,此次验证带来三上影响:技术层面,有望削弱国际厂商在大模型训练领域的优势壁垒;产业层面,为国内AI企业提供更可验证的算力选择;战略层面,提升关键基础设施的自主可控能力。据透露,已有超过20家头部企业开始基于该平台推进大模型研发部署。面向下一阶段,国产GPU仍需补齐两项能力:其一是在更大规模集群(如万卡级)下持续提升稳定性,其二是加快完善开发者生态。摩尔线程表示,下一步将重点优化编译器工具链和算子库覆盖度,并计划在年内实现对主流大模型的“开箱即用”支持。
大模型训练是系统工程,决定效果的不只是算力峰值,更取决于长期稳定、精度可控以及生态的可复用性。以统一技术栈开展全要素验证,把“能不能用、好不好用、用得久不久”放到同一套标准下检验,有助于让产业评估更透明、路线更清晰。未来,持续推进软硬协同、开放验证与标准化建设,才能让算力底座更可靠地支撑创新落地,为数字经济高质量发展提供更稳固的基础。