华为发布新一代AI加速卡国产算力实现关键技术突破与生态布局

当前，大模型的快速迭代正推高推理需求；行业面临三重挑战：算力供给是否充足、成本能否控制、工程化能否真正落地。一方面，模型参数持续增长，推理对低时延和高吞吐的要求越来越高；另一方面，显存紧张、带宽瓶颈和能耗约束交织一起，企业在部署生成式和多模态应用时，既要追求效率，又要控制成本；此外，软硬件的适配程度和工具链的成熟度，决定了算力能否真正转化为生产力。从技术演进看，推理优化正从追求单点性能向追求精度、带宽、内存和系统的协同转变。低精度计算通过在可接受范围内降低数值精度来换取更高吞吐和更低成本，成为推理的重要手段。随着训练和推理规模扩大，单卡指标已经不足以反映系统的真实能力，面向大规模集群的互联架构、统一编址和高效调度成为关键，超节点因此获得重视。华为副总裁马海旭在会上宣布，Atlas 350加速卡正式上市，搭载昇腾950PR处理器，标志着昇腾950PR进入商用阶段。Atlas 350在推理能力、显存配置和访存颗粒度上都有提升：单卡算力明显领先，国内推理产品中首次支持FP4低精度推理；显存采用112GB HBM配置，提升多模态生成效率；内存访问颗粒度从512字节优化到128字节，提升小算子场景的性能。该卡FP4算力达1.56P、带宽1.4TB/s、功耗600W。业界认为，FP4能更降低显存占用和时延，让更大参数的模型在更少卡数上实现可用部署，改善应用上线效率和成本结构。产业链随之加速协同。昆仑、华鲲振宇、神州鲲泰、长江计算、宝德、软通华方、百信等伙伴现场发布基于Atlas 350的整机产品，完善了从芯片、加速卡到整机的配套体系。应用侧，有关企业推动大模型与昇腾910/950系列算力的适配，打通从底层算力到行业模型再到业务场景的链条。这表明国产算力正从"能用"向"好用、易用、规模用"转变，竞争重点也从硬件参数扩展到系统工程和生态能力。面对训练和推理规模化趋势，华为强调超节点战略。华为展示的Atlas 950超节点方案支持大规模昇腾卡通过全光互联实现高带宽、低时延互连。清华大学计算机系教授郑纬民指出，具备超高带宽、超低时延和内存统一编址的超节点，正成为新型算力基础设施的重要形态，已在互联网、电信、制造等行业有实践案例。其中，内存统一编址能力是实现算力"向上扩展"的关键，有助于将分散算力组织成更高效的整体。技术突破之外，生态建设同样重要。马海旭表示，华为推进昇腾软件开源开放，推动CANN等软件解耦，细化安装组件便于开发者按需使用，提升编译效率；同时对算子编程框架、主流深度学习框架和训推加速引擎等开源项目提供全流程支持，降低迁移门槛、贴近开发习惯，提升"开箱即用"体验，形成软硬件协同演进的良性循环。推理侧的低精度能力、存储与带宽优化，加上整机伙伴的规模供给，将推动更多行业加速在本地和云端部署大模型应用；而面向更大规模集群，超节点和统一编址等系统能力将决定未来算力基础设施的上限。下一阶段竞争将集中在三个上：一是更稳定的端到端工具链和工程化能力；二是围绕数据安全、能效和成本的综合优化；三是生态伙伴在行业场景中的"可复制交付"能力。随着软硬件协同深化和产业分工完善，国产算力有望在更多关键环节形成体系化供给，支撑更高水平的模型创新和产业应用。

从加速卡商用到整机首发，再到软件开源开放和超节点体系推进，这若干动作表明我国算力产业正从单点性能比拼转向体系化能力建设。下一阶段，只有在标准化供给、软件生态、工程运维和行业应用之间形成良性循环，才能把技术优势转化为规模化应用优势，为数字经济发展提供更稳固、更高效的底座支撑。

华为发布新一代AI加速卡 国产算力实现关键技术突破与生态布局

华为发布新一代AI加速卡国产算力实现关键技术突破与生态布局