黄仁勋阐述AI芯片内存选择：HBM灵活性优势明显 SRAM容量瓶颈难以突破

一、降本压力催生"替代方案" AI产业已进入规模化落地阶段，企业面临的不再是"能否实现"的问题，而是"能否持续运营"。硬件成本不仅包括初期采购，还涉及长期的电力、机柜、运维和折旧。这种背景下，业界开始探索多条技术路线，包括片上存储加速器、推理用GDDR方案以及开放权重模型的普惠化部署。其中，SRAM因其低延迟和超高访问速度在某些基准测试中表现突出，被部分人士视为可能替代HBM的方向。二、SRAM的真实局限从技术特性看，SRAM擅长高速缓存任务，延迟低、速度快，但成本高、密度低、容量扩展困难。而HBM采用堆叠封装，提供更高带宽和更大容量，适合大规模并行计算。黄仁勋指出，SRAM在特定负载中表现出众，但进入生产环境后问题就显现了。一旦模型或上下文超出SRAM容量，数据必须转移到外部存储，原本的低延迟优势会被频繁的数据搬运所抵消。更重要的是，当前AI工作负载日趋多样化。混合专家模型、扩散生成模型、自回归架构、多模态任务等对硬件的需求各不相同，有的吃容量，有的吃带宽，有的对访存模式敏感。若硬件为某一种模式过度定制，在其他任务上就会出现资源浪费。三、数据中心更看重利用率在共享数据中心环境中，硬件的经济性取决于持续利用率而非单点峰值性能。即便某类专用方案在少数任务上性能极致，但如果无法覆盖多数通用任务，整体资源就会浪费。对运营方来说，最大的成本不是器件价格本身，而是"买来用不满"的机会成本。 HBM方案虽然物料成本更高、系统设计更复杂，但能在更广泛的模型和算法演进中保持适配性，在数周乃至数月的运营周期内维持较高的吞吐和利用率。这种灵活性意味着当模型结构、上下文长度或多模态需求快速变化时，硬件仍能通过系统调度和软件优化承担新任务，降低因技术路线选择错误带来的资产贬值风险。四、降本的正确路径是系统优化降低AI基础设施成本更可能来自系统级协同，而非单一环节的简单替换。一上，可通过精细的任务分层，将对低延迟敏感、复用度高的数据留片上或近端存储，把需要大容量的部分交由HBM承担，形成多层次存储协同。另一上，编译优化、算子融合、稀疏化和量化等软件手段也能减少无效数据搬运，提高内存带宽效率。关于开放模型是否能降低基础设施门槛的问题，黄仁勋的回应指向同一逻辑：开放并不必然带来低资源消耗。随着开放模型不断扩展上下文窗口、增加模态能力，内存占用同样会快速增长。模型生态的繁荣更可能放大对基础设施弹性的需求，而不是削弱对高带宽大容量内存的依赖。五、内存体系走向分工深化未来一段时间，AI芯片的内存体系将更强调分工明确、协同增强。SRAM等片上高速存储仍是提升局部效率的重要手段，在特定推理链路、热点数据复用和低延迟场景中有价值。但要支撑大模型训练、长上下文推理和多任务并发的生产环境，HBM等系统级高带宽大容量内存仍是关键。随着模型演进加快，硬件的核心竞争力将更多体现在对多样化负载的适配能力、对新算法的快速承载以及长期运营中的稳定利用率。

黄仁勋的表态既回应了业内的技术争议，也为AI硬件发展指明了方向。在AI技术快速迭代的时代，硬件设计必须兼顾性能与灵活性。HBM的广泛应用将继续推动AI算力的边界拓展。未来，如何在成本与性能之间找到平衡点，将是行业持续探索的重要课题。