英伟达发布Blackwell Ultra架构：能效与推理成本显著优化，算力互联迈向“系统级”竞争

随着大模型应用的广泛部署，AI推理的能效与成本问题成为业界关注的焦点；英伟达近日发布的Blackwell Ultra AI架构（GB300 NVL72）针对这些痛点进行了系统优化，在多个关键指标上取得显著进展。从能效看，Blackwell Ultra在每兆瓦吞吐量上表现突出。这个指标反映单位电力消耗下的处理能力，数值越高意味着能效越优、运营成本越低。根据英伟达基于DeepSeek-R1模型的测试，新架构每兆瓦吞吐量相比Hopper GPU提升了50倍，在相同功耗下实现了处理能力的数量级提升。推理成本的下降最直观地反映了这一突破。相比Hopper架构，Blackwell Ultra将每百万Token的推理成本削减至三十五分之一。与上一代Blackwell（GB200）相比，GB300在长上下文任务中的Token成本降低至1.5倍，注意力机制处理速度翻倍，这对代码库维护等高负载场景意义重大。这些性能突破源于英伟达在硬件层面的创新。Blackwell Ultra通过升级的NVLink互联技术，将72个GPU连接成统一的计算单元，互联带宽达到130TB/s，远超Hopper时代8芯片设计的水平。全新的NVFP4精度格式与协同设计结构的配合，更强化了其吞吐性能优势。这一升级恰逢其时。根据OpenRouter发布的推理状态报告，与软件编程有关的AI查询量在过去一年激增，占比从11%上升至约50%。这类应用需要AI代理在多步工作流中保持实时响应，并具备跨代码库推理的长上下文处理能力。英伟达通过TensorRT-LLM、Dynamo等团队的改进，提升了混合专家模型的推理吞吐量。数据显示，TensorRT-LLM库的改进使GB200在低延迟工作负载上的性能在四个月内提升了5倍。展望未来，英伟达已预告下一代Rubin平台将增强性能。根据规划，Rubin平台的每兆瓦吞吐量将比Blackwell再提升10倍，推动AI基础设施向更高效、更经济的方向发展。

在这场由芯片驱动的AI效率革命中，技术创新正在改变产业的经济模型；当算力成本不再成为制约因素时，AI赋能实体经济的历史性机遇随之而来。但如何在技术进步与可持续发展之间找到平衡，仍需产业各方共同探索。