一、问题:推理成为算力增长主战场,传统架构延迟瓶颈凸显 近年来,生成式应用与智能体类产品加速落地,算力需求从“训练为主”逐步转向“训练与推理并重、推理更强调实时”;多份行业研究预计,未来两年推理环节将占据更高比例的计算资源消耗,面向推理的专用芯片与系统优化随之成为竞争焦点。 该趋势下,传统GPU在推理场景尤其是解码阶段面临的“访存—搬运—计算”链路瓶颈更为突出:模型参数多存放于高带宽内存,计算核心与外部存储之间高频数据搬运推高时延与能耗,影响在线服务的响应时间与成本控制。 二、原因:推理工作负载变化促使“存算协同”走向更深层次 与训练更看重吞吐不同,推理往往更强调低延迟、稳定时延与高并发服务能力。智能体应用的兴起,使模型调用呈现多轮交互、链式推理、工具调用等特征,对单次响应时间与持续稳定输出提出更高要求。 因此,单纯依赖提升计算单元规模并不足以解决问题,提升数据就近供给能力、减少数据搬运成为关键方向。业内关注的LPU思路,核心在于把更多参数与中间数据放在片上更高速的存储体系中,以更高带宽支撑低延迟推理。但另外,片上静态存储容量受制于硅面积与工艺成本,难以直接覆盖超大规模模型的参数体量,这促使厂商寻求新的结构性方案。 三、影响:三维堆叠或成重要路径,产业链价值分布面临重估 据产业链信息与业内分析,英伟达新一代推理芯片可能在保持既有软件生态的同时,引入更强调低延迟的数据通路设计,并探索三维堆叠将大容量SRAM单元与计算晶圆在垂直方向集成,以提高近存带宽、降低解码阶段时延。有关人士认为,这类“垂直整合”的设计思路若落地,将在不颠覆既有开发生态的前提下,增强推理场景的性价比与规模化部署能力。 从产业层面看,三维堆叠带来的变化不仅体现在产品性能指标,更可能推动半导体产业链分工与利润分配的再平衡:一上,晶圆级堆叠对先进制程、良率控制、系统级集成工艺提出更高要求,先进制造环节的重要性继续上升;另一方面,封装测试、散热材料、可靠性验证、先进互连等环节的技术含量与议价能力也有望同步提升,但传统模式下以规模取胜的后道企业将面临能力升级压力。 四、对策:企业需在“先进制造+先进封装+系统设计”协同中寻找确定性 业内人士指出,推理芯片的竞争已从单点算力比拼转向系统级能力比拼。对头部厂商而言,需要在计算架构、存储层次、互连带宽、软件栈与编译优化之间形成闭环,才能把硬件优势转化为稳定可用的服务能力。 对产业链相关企业而言,应围绕三维集成的关键难点加快布局:一是提升工艺与封装协同能力,强化热管理与功耗控制;二是完善堆叠结构的测试与可靠性体系,降低量产风险;三是围绕数据中心部署场景,推动软硬件协同验证与标准化接口建设,以更快进入规模化供应链。 同时,业内也提醒,片上大容量静态存储并非“万能钥匙”,在容量、成本与良率之间需要精细权衡;未来更可能呈现多种存储与互连技术并行演进、针对不同推理负载做差异化取舍的格局。 五、前景:推理时代呼唤立体集成,下一代芯片或进入“垂直整合”窗口期 从全球动向看,相关路线已在多家企业产品规划中出现,显示三维SRAM等立体集成并非概念验证,而是向工程化与商业化加速推进。随着推理需求持续增长,围绕“更低延迟、更高带宽、更优能效”的技术路线将进一步明确,存储与计算单元的垂直整合有望成为高端推理芯片的重要选项之一。 可以预见的是,未来一段时间内,围绕先进制程供给、先进封装产能、系统级集成能力的竞争将更加激烈;同时,推理侧的快速迭代也将推动数据中心基础设施、软件框架与服务形态同步升级,进而带动更广泛的产业链联动。
即将召开的英伟达GTC大会新品发布,标志着AI芯片产业正迎来技术转折点。从单纯追求算力到系统级优化的转变,表明了行业对AI推理需求的深入理解。此变革不仅将改变芯片设计路线,也将重构全球半导体产业格局。对中国芯片产业而言,既要认清在先进制程上的差距,也要抓住三维集成、封装测试等环节的发展机遇,在全球AI芯片升级中找到自身定位。