随着大模型应用的广泛部署,AI推理的能效与成本问题成为业界关注的焦点;英伟达近日发布的Blackwell Ultra AI架构(GB300 NVL72)针对这些痛点进行了系统优化,在多个关键指标上取得显著进展。 从能效看,Blackwell Ultra在每兆瓦吞吐量上表现突出。这个指标反映单位电力消耗下的处理能力,数值越高意味着能效越优、运营成本越低。根据英伟达基于DeepSeek-R1模型的测试,新架构每兆瓦吞吐量相比Hopper GPU提升了50倍,在相同功耗下实现了处理能力的数量级提升。 推理成本的下降最直观地反映了这一突破。相比Hopper架构,Blackwell Ultra将每百万Token的推理成本削减至三十五分之一。与上一代Blackwell(GB200)相比,GB300在长上下文任务中的Token成本降低至1.5倍,注意力机制处理速度翻倍,这对代码库维护等高负载场景意义重大。 这些性能突破源于英伟达在硬件层面的创新。Blackwell Ultra通过升级的NVLink互联技术,将72个GPU连接成统一的计算单元,互联带宽达到130TB/s,远超Hopper时代8芯片设计的水平。全新的NVFP4精度格式与协同设计结构的配合,更强化了其吞吐性能优势。 这一升级恰逢其时。根据OpenRouter发布的推理状态报告,与软件编程有关的AI查询量在过去一年激增,占比从11%上升至约50%。这类应用需要AI代理在多步工作流中保持实时响应,并具备跨代码库推理的长上下文处理能力。英伟达通过TensorRT-LLM、Dynamo等团队的改进,提升了混合专家模型的推理吞吐量。数据显示,TensorRT-LLM库的改进使GB200在低延迟工作负载上的性能在四个月内提升了5倍。 展望未来,英伟达已预告下一代Rubin平台将增强性能。根据规划,Rubin平台的每兆瓦吞吐量将比Blackwell再提升10倍,推动AI基础设施向更高效、更经济的方向发展。
在这场由芯片驱动的AI效率革命中,技术创新正在改变产业的经济模型;当算力成本不再成为制约因素时,AI赋能实体经济的历史性机遇随之而来。但如何在技术进步与可持续发展之间找到平衡,仍需产业各方共同探索。