围绕AI算力成本居高不下、内存器件价格与供应紧张等现实挑战,业界近来出现“以SRAM等低成本方案缓解对HBM依赖”的讨论。
在CES 2026展会期间的交流中,黄仁勋对这一观点作出回应:SRAM并非没有优势,但若试图以其全面替代HBM,核心障碍在于容量与规模化能力,难以匹配当下AI模型演进速度。
问题:降本诉求推动“替代方案”升温 随着大模型训练与推理需求快速增长,数据中心在硬件投入、电力与运维成本上的压力不断加大。
部分厂商与研究团队尝试通过SRAM加速器、GDDR推理方案以及更开放的模型与软件生态,寻找更经济的路径。
在一些基准测试或受控演示场景中,SRAM因访问延迟低、速度快而呈现亮眼表现,由此引发“是否可以用更便宜的SRAM取代HBM”的争议。
原因:速度与容量的结构性矛盾难以回避 黄仁勋肯定SRAM在特定任务中的速度优势,认为其在少数工作负载上表现“非常惊人”。
但他强调,生产环境的AI系统首先面对的是模型规模、上下文长度、并发需求与服务稳定性。
SRAM的密度与成本结构决定其难以在可接受的芯片面积与成本范围内实现大容量扩展,即便通过堆叠或更激进的片上设计提升容量,也可能带来良率、功耗、散热与制造成本等系统性压力。
更关键的是,当模型因上下文增长、功能扩展或批量并发而“溢出”片上SRAM后,系统不得不回落到外部内存或更远层级存储,性能将受到数据搬运与带宽瓶颈牵制,原本的低延迟优势被迅速稀释。
换言之,SRAM擅长“短跑”,但AI生产系统需要“长跑”,核心在于可扩展的容量与持续稳定的带宽供给。
影响:工作负载多样化使“单点优化”风险上升 当前AI模型形态呈现多样化趋势,包括混合专家模型、多模态任务、扩散模型、自回归模型等,不同架构对硬件的压力点并不一致:有的更依赖显存容量,有的更依赖互连带宽与通信效率,有的对算力与内存访问模式要求更苛刻。
黄仁勋据此判断,若硬件过度针对某一类模式优化,一旦业务负载变化,昂贵的算力资源可能出现闲置,数据中心总体效率反而下降。
在共享数据中心场景中,这一风险被进一步放大。
单一业务或许可以为极致优化“买单”,但公共或混合云环境必须兼顾多行业、多模型、多时段的需求波动。
硬件若只能在少数任务上达到峰值,却无法覆盖更广泛的通用负载,整体利用率与投资回报将承压。
对策:以HBM提供“可选性”,提升长期利用率 黄仁勋表示,HBM虽然物料成本更高、系统设计更复杂,但其带来的灵活性与适配面更广,能够支撑模型和算法在数周甚至数月的迭代周期中持续运行。
对数据中心而言,决定经济效益的不仅是单次测试的性能峰值,更是长期可用性与利用率。
通过HBM等高带宽内存体系,平台更容易在训练、推理、混合负载之间切换,降低因模型演进导致的硬件“过时”风险。
针对“开放模型是否会削弱基础设施门槛”的讨论,他认为,开放并不等于资源需求下降。
相反,随着开放模型不断吸纳更长上下文、更多模态与更复杂的推理链路,内存占用仍可能持续上升,对高带宽、大容量内存的依赖并不会自然消失。
基于此,相关企业愿意承担HBM的成本与系统工程复杂度,目的在于保留平台的“可选性”,避免客户被锁定在狭窄的性能适配区间,也降低自身在技术路线快速迭代中的被动。
前景:内存体系或走向“分层协同”,竞争将回归系统能力 从产业演进看,围绕AI芯片的竞争正在从单一器件指标转向系统协同能力。
SRAM、HBM、GDDR及更远层级存储各有定位,未来更可能形成分层内存体系:片上SRAM负责极低延迟的热点数据与缓存,HBM承担高带宽与大容量主存角色,配合互连与软件栈优化,实现整体效率提升。
短期内,单纯以SRAM全面替代HBM的可行性有限;中长期,谁能在“成本—性能—通用性—可扩展性”之间找到更优解,谁就更可能在数据中心AI基础设施竞争中占据优势。
黄仁勋的此番表态不仅回应了行业关切,也为AI硬件的发展方向提供了清晰思路。
在技术快速迭代的今天,硬件设计需兼顾性能与灵活性,避免陷入“为优化而优化”的陷阱。
未来,如何平衡成本与效率、专用与通用,将成为企业技术路线选择的关键考量。