华为发布Atlas 350智能加速卡国产算力实现关键技术突破

问题——随着大模型推荐、内容生成、办公辅助、医疗文书等场景加速落地，行业对“低时延、高吞吐、可扩展”的推理算力需求迅速增长。一上，互联网业务高并发对响应时间非常敏感；另一方面，多模态生成类应用对显存容量、带宽和算子调度效率提出更高要求。如何保证效果的同时降低推理时延和总体成本，成为算力基础设施升级的关键问题。原因——业内普遍认为，推理阶段的性能瓶颈正从单纯的计算能力，转向“算力—存储—互联”的系统协同。此次亮相并上市的Atlas 350加速卡搭载昇腾950PR处理器。据介绍，昇腾950PR采用SIMD架构，在FP8数据格式下算力可达1PFLOPS、在FP4格式下可达2PFLOPS，并支持FP32、HF32、FP16等多种数据格式；互联带宽达到2TB/s，内存容量与带宽分别为128GB和1.6TB/s。与上一代产品相比，其在低精度处理、向量算力、互联带宽以及自研高带宽存储上有所提升，并将内存访问颗粒度从512字节缩小至128字节，以提升小算子访存效率。业内人士指出，低精度计算与更细粒度的访存优化，有助于推理负载中提高单位能耗下的有效吞吐。影响——在硬件参数层面，Atlas 350在FP4精度下算力为1.56P，带宽为1.4TB/s，功耗为600W。华为昇腾计算业务对应的负责人表示，Atlas 350单卡算力相较部分同类产品具备优势，并强调其对FP4低精度推理的支持，有望在同等机柜空间内承载更大规模模型、降低推理时延。应用层面，Atlas 350在互联网推荐场景实测中表现出较低时延和更快响应，面向短视频、电商、广告等高并发业务具备适配空间；在大模型推理、文生图、文生视频等多模态任务中，其综合表现也受到关注。业内分析认为，推理算力的代际提升，将带动上层应用从“可用”继续走向“好用”，并加速行业一体化解决方案落地。对策——在生态推进上，华为提出围绕大、中、小三类核心算力场景构建产品与方案组合，以覆盖不同客户规模、成本和部署形态上的差异化需求。大会期间，昆仑、华鲲振宇等7家核心伙伴发布基于Atlas 350的服务器整机产品，推动昇腾950代际推理能力进入商用。以软通动力旗下软通华方发布的“超强A860 A5”为例，该6U双路服务器搭载鲲鹏920新型号处理器，可支持8块Atlas 350加速卡，面向大语言模型训练与推理、加速计算、视频分析等场景，主打算力密度、扩展性与可靠性。软件与模型侧，科大讯飞表示将新一代星火大模型与昇腾910/950系列算力底座进行适配，以提升方案交付效率。另外，华为昇腾联合20家行业头部伙伴发布面向2026年的应用场景解决方案，覆盖辅助办公、实训平台、电子病历等关键领域，希望通过“硬件平台+模型适配+行业交付”的协同，缩短从算力到应用价值的转化路径。前景——从产业趋势看，低精度推理与系统级带宽优化正成为算力平台演进的重要方向。随着行业对实时交互、多模态生成和复杂推荐的需求持续上升，推理基础设施的竞争将更强调可部署、可运营和可持续迭代能力。华为上透露，围绕一体机形态，近期相关需求升温，过去一个多月已有十几家合作伙伴推出基于昇腾的一体机产品；截至目前，昇腾已联合伙伴打造400多款行业一体机，服务客户超过2700家。业内人士认为，在供给侧能力提升与生态侧规模扩张的共同作用下，推理算力有望进一步向行业纵深渗透，但仍需在能效、软件栈成熟度、工程化运维与应用适配等持续提升，才能形成可复制、可持续的产业竞争力。

推理算力的竞争，本质上是产业组织能力与工程化能力的竞争；新产品发布很重要，但更关键的是能否通过伙伴协同，把算力转化为可复制、可交付、可运维的行业能力。面向大模型应用从“看得见”走向“用得起、用得好”的阶段，谁能在性能、生态与场景落地之间形成闭环，谁就更有可能在新一轮智能化升级中占据主动。

华为发布Atlas 350智能加速卡 国产算力实现关键技术突破

华为发布Atlas 350智能加速卡国产算力实现关键技术突破