一、降本压力催生"替代方案" AI产业已进入规模化落地阶段,企业面临的不再是"能否实现"的问题,而是"能否持续运营"。硬件成本不仅包括初期采购,还涉及长期的电力、机柜、运维和折旧。这种背景下,业界开始探索多条技术路线,包括片上存储加速器、推理用GDDR方案以及开放权重模型的普惠化部署。其中,SRAM因其低延迟和超高访问速度在某些基准测试中表现突出,被部分人士视为可能替代HBM的方向。 二、SRAM的真实局限 从技术特性看,SRAM擅长高速缓存任务,延迟低、速度快,但成本高、密度低、容量扩展困难。而HBM采用堆叠封装,提供更高带宽和更大容量,适合大规模并行计算。黄仁勋指出,SRAM在特定负载中表现出众,但进入生产环境后问题就显现了。一旦模型或上下文超出SRAM容量,数据必须转移到外部存储,原本的低延迟优势会被频繁的数据搬运所抵消。 更重要的是,当前AI工作负载日趋多样化。混合专家模型、扩散生成模型、自回归架构、多模态任务等对硬件的需求各不相同,有的吃容量,有的吃带宽,有的对访存模式敏感。若硬件为某一种模式过度定制,在其他任务上就会出现资源浪费。 三、数据中心更看重利用率 在共享数据中心环境中,硬件的经济性取决于持续利用率而非单点峰值性能。即便某类专用方案在少数任务上性能极致,但如果无法覆盖多数通用任务,整体资源就会浪费。对运营方来说,最大的成本不是器件价格本身,而是"买来用不满"的机会成本。 HBM方案虽然物料成本更高、系统设计更复杂,但能在更广泛的模型和算法演进中保持适配性,在数周乃至数月的运营周期内维持较高的吞吐和利用率。这种灵活性意味着当模型结构、上下文长度或多模态需求快速变化时,硬件仍能通过系统调度和软件优化承担新任务,降低因技术路线选择错误带来的资产贬值风险。 四、降本的正确路径是系统优化 降低AI基础设施成本更可能来自系统级协同,而非单一环节的简单替换。一上,可通过精细的任务分层,将对低延迟敏感、复用度高的数据留片上或近端存储,把需要大容量的部分交由HBM承担,形成多层次存储协同。另一上,编译优化、算子融合、稀疏化和量化等软件手段也能减少无效数据搬运,提高内存带宽效率。 关于开放模型是否能降低基础设施门槛的问题,黄仁勋的回应指向同一逻辑:开放并不必然带来低资源消耗。随着开放模型不断扩展上下文窗口、增加模态能力,内存占用同样会快速增长。模型生态的繁荣更可能放大对基础设施弹性的需求,而不是削弱对高带宽大容量内存的依赖。 五、内存体系走向分工深化 未来一段时间,AI芯片的内存体系将更强调分工明确、协同增强。SRAM等片上高速存储仍是提升局部效率的重要手段,在特定推理链路、热点数据复用和低延迟场景中有价值。但要支撑大模型训练、长上下文推理和多任务并发的生产环境,HBM等系统级高带宽大容量内存仍是关键。随着模型演进加快,硬件的核心竞争力将更多体现在对多样化负载的适配能力、对新算法的快速承载以及长期运营中的稳定利用率。
黄仁勋的表态既回应了业内的技术争议,也为AI硬件发展指明了方向。在AI技术快速迭代的时代,硬件设计必须兼顾性能与灵活性。HBM的广泛应用将继续推动AI算力的边界拓展。未来,如何在成本与性能之间找到平衡点,将是行业持续探索的重要课题。