华为发布Atlas 350智能加速卡 国产算力实现关键技术突破

问题——随着大模型推荐、内容生成、办公辅助、医疗文书等场景加速落地,行业对“低时延、高吞吐、可扩展”的推理算力需求迅速增长。一上,互联网业务高并发对响应时间非常敏感;另一方面,多模态生成类应用对显存容量、带宽和算子调度效率提出更高要求。如何保证效果的同时降低推理时延和总体成本,成为算力基础设施升级的关键问题。 原因——业内普遍认为,推理阶段的性能瓶颈正从单纯的计算能力,转向“算力—存储—互联”的系统协同。此次亮相并上市的Atlas 350加速卡搭载昇腾950PR处理器。据介绍,昇腾950PR采用SIMD架构,在FP8数据格式下算力可达1PFLOPS、在FP4格式下可达2PFLOPS,并支持FP32、HF32、FP16等多种数据格式;互联带宽达到2TB/s,内存容量与带宽分别为128GB和1.6TB/s。与上一代产品相比,其在低精度处理、向量算力、互联带宽以及自研高带宽存储上有所提升,并将内存访问颗粒度从512字节缩小至128字节,以提升小算子访存效率。业内人士指出,低精度计算与更细粒度的访存优化,有助于推理负载中提高单位能耗下的有效吞吐。 影响——在硬件参数层面,Atlas 350在FP4精度下算力为1.56P,带宽为1.4TB/s,功耗为600W。华为昇腾计算业务对应的负责人表示,Atlas 350单卡算力相较部分同类产品具备优势,并强调其对FP4低精度推理的支持,有望在同等机柜空间内承载更大规模模型、降低推理时延。应用层面,Atlas 350在互联网推荐场景实测中表现出较低时延和更快响应,面向短视频、电商、广告等高并发业务具备适配空间;在大模型推理、文生图、文生视频等多模态任务中,其综合表现也受到关注。业内分析认为,推理算力的代际提升,将带动上层应用从“可用”继续走向“好用”,并加速行业一体化解决方案落地。 对策——在生态推进上,华为提出围绕大、中、小三类核心算力场景构建产品与方案组合,以覆盖不同客户规模、成本和部署形态上的差异化需求。大会期间,昆仑、华鲲振宇等7家核心伙伴发布基于Atlas 350的服务器整机产品,推动昇腾950代际推理能力进入商用。以软通动力旗下软通华方发布的“超强A860 A5”为例,该6U双路服务器搭载鲲鹏920新型号处理器,可支持8块Atlas 350加速卡,面向大语言模型训练与推理、加速计算、视频分析等场景,主打算力密度、扩展性与可靠性。软件与模型侧,科大讯飞表示将新一代星火大模型与昇腾910/950系列算力底座进行适配,以提升方案交付效率。另外,华为昇腾联合20家行业头部伙伴发布面向2026年的应用场景解决方案,覆盖辅助办公、实训平台、电子病历等关键领域,希望通过“硬件平台+模型适配+行业交付”的协同,缩短从算力到应用价值的转化路径。 前景——从产业趋势看,低精度推理与系统级带宽优化正成为算力平台演进的重要方向。随着行业对实时交互、多模态生成和复杂推荐的需求持续上升,推理基础设施的竞争将更强调可部署、可运营和可持续迭代能力。华为上透露,围绕一体机形态,近期相关需求升温,过去一个多月已有十几家合作伙伴推出基于昇腾的一体机产品;截至目前,昇腾已联合伙伴打造400多款行业一体机,服务客户超过2700家。业内人士认为,在供给侧能力提升与生态侧规模扩张的共同作用下,推理算力有望进一步向行业纵深渗透,但仍需在能效、软件栈成熟度、工程化运维与应用适配等持续提升,才能形成可复制、可持续的产业竞争力。

推理算力的竞争,本质上是产业组织能力与工程化能力的竞争;新产品发布很重要,但更关键的是能否通过伙伴协同,把算力转化为可复制、可交付、可运维的行业能力。面向大模型应用从“看得见”走向“用得起、用得好”的阶段,谁能在性能、生态与场景落地之间形成闭环,谁就更有可能在新一轮智能化升级中占据主动。