随着人工智能应用规模的不断扩大,能源消耗已成为制约AI基础设施发展的关键瓶颈。
英伟达日前在加州总部展示了即将推出的新一代AI系统Vera Rubin的完整设计方案,通过革新性的架构设计和散热技术,在功耗管理上取得了突破性进展。
从性能指标看,Vera Rubin系统的每瓦性能相比上一代Grace Blackwell产品实现了十倍提升。
这一成就在当前全球数据中心能耗持续攀升的背景下显得尤为重要。
英伟达AI基础设施负责人Dion Harris介绍,虽然新系统的功耗约为前代的两倍,但由于单位功耗下的计算能力大幅提升,整体能效比实现了质的飞跃,这意味着用户可以用更少的能源消耗获得更强的计算性能。
Vera Rubin系统的复杂性体现在其全球化的供应链体系中。
该系统由130万个零部件组成,核心芯片包括72颗Rubin图形处理器和36颗Vera中央处理器,主要由台积电代工生产。
除核心芯片外,液冷组件、供电系统、计算托盘等关键部件来自全球至少20个国家的80多家供应商,涵盖中国、越南、泰国、墨西哥、以色列和美国等地。
这种高度国际化的产业链配置反映了当代高端芯片系统制造的全球协作特征。
在散热技术上,Vera Rubin实现了英伟达首个100%液冷散热系统的突破。
相比传统风冷方案,液冷技术具有更高的热传导效率,能够更有效地管理高功耗设备产生的热量。
Harris表示,英伟达已向客户建议,未来的人工智能工厂应当广泛采用液冷架构。
这一建议不仅基于性能考量,还考虑到了环保因素。
液冷闭环系统的特性使其能够显著节约水资源消耗,符合绿色数据中心建设的发展方向。
在数据传输方面,Vera Rubin搭载的NVLink芯片和机架主干实现了数据传输速度翻倍至每秒260TB的性能指标。
为了支撑如此高速的数据流动,单个机架内需要5000根铜缆进行连接,总长度约为两英里。
这种密集的互联设计确保了系统内各组件之间的高效通信。
英伟达同步推出的下一代大型机架Kyber也展现了设计创新。
新机架的GPU搭载数量将从现有的72块提升至288块,增幅达到300%,但机架重量仅增加约50%。
这一成就主要得益于精简的布线设计和更紧凑的空间利用方案。
英伟达计划在Vera Rubin Ultra系统中采用Kyber机架,预计于明年正式上市。
从行业发展趋势看,Vera Rubin系统的推出反映了AI基础设施建设正在经历的深刻变革。
能效比的提升意味着数据中心运营成本的下降,这对于大规模AI应用的商业化部署具有重要意义。
液冷架构的推广有望成为行业标准,推动整个AI基础设施产业向更加高效、可持续的方向发展。
同时,全球化的供应链体系也表明,高端AI芯片系统的制造已成为真正的国际合作事业。
Vera Rubin系统的发布标志着高性能计算进入以能效为核心竞争力的新发展阶段。
在全球数字经济加速发展的大背景下,计算设备的绿色转型不仅关乎企业运营成本,更是实现"双碳"目标的重要一环。
未来,随着各国对数据中心能效标准的不断提高,以液冷技术为代表的绿色计算解决方案或将重塑整个ICT产业格局。
在此过程中,中国企业如何把握技术变革机遇,值得业界持续关注。