英伟达发布新一代计算架构能效比提升50倍改写AI产业格局

当前，随着大模型应用的广泛部署，AI推理的能效与成本问题日益凸显。

英伟达近日发布的Blackwell Ultra AI架构（GB300 NVL72）针对这一痛点进行了系统优化，在多个关键指标上实现了显著突破。

从能效指标看，Blackwell Ultra在每兆瓦吞吐量上的表现尤为突出。

这一指标衡量的是单位电力消耗下的处理能力，数值越高代表能效越优、运营成本越低。

根据英伟达基于DeepSeek-R1模型的测试结果，新架构每兆瓦吞吐量相比前代Hopper GPU提升了50倍，这意味着在相同功耗下，处理能力实现了数量级的飞跃。

推理成本的大幅下降是这一突破的直观体现。

相比Hopper架构，Blackwell Ultra将每百万Token的推理成本削减至三十五分之一。

即便与上一代Blackwell（GB200）相比，GB300在长上下文任务中的Token成本也降低至1.5倍，注意力机制处理速度翻倍，这对于代码库维护等高负载场景具有重要意义。

这些性能突破的实现，源于英伟达在硬件架构层面的创新设计。

Blackwell Ultra通过升级的NVLink互联技术，将72个GPU连接成统一的计算单元，互联带宽达到130TB/s，远超Hopper时代8芯片设计的水平。

同时，全新的NVFP4精度格式与极致的协同设计结构相配合，进一步巩固了其在吞吐性能上的优势。

从应用需求看，这一升级恰逢其时。

根据OpenRouter发布的推理状态报告，与软件编程相关的AI查询量在过去一年激增，占比从11%攀升至约50%。

这类应用通常需要AI代理在多步工作流中保持实时响应，并具备跨代码库推理的长上下文处理能力。

英伟达通过TensorRT-LLM、Dynamo等团队的持续优化，进一步提升了混合专家模型的推理吞吐量。

数据显示，TensorRT-LLM库的改进使GB200在低延迟工作负载上的性能在四个月内提升了5倍。

展望未来，英伟达已预告下一代Rubin平台将进一步提升性能。

根据规划，Rubin平台的每兆瓦吞吐量将比Blackwell再提升10倍，这将继续推动AI基础设施向更高效、更经济的方向演进。

从“算得快”走向“算得起”，是大模型应用迈向规模化、产业化的必经之路。

围绕能效、互联与软件协同的系统工程竞赛正在加速推进，其影响将外溢至数据中心建设、企业数字化转型以及算力供给格局。

对市场而言，真正的分水岭不在于发布了多少新指标，而在于这些改进能否在真实场景中稳定转化为更低成本、更高可靠性的服务能力。

谁能把推理经济账算得更清楚、把工程细节做得更扎实，谁就更可能在下一阶段竞争中占据主动。

英伟达发布新一代计算架构 能效比提升50倍改写AI产业格局