研报指出,智能体(Agent)应用的兴起正改变算力基础设施的需求格局:模型不仅需要“能回答问题”,还需具备规划、记忆、工具调用和持续执行能力,这显著增加了推理过程中的上下文长度,导致KV Cache等关键环节的显存占用大幅上升。以开源大模型为例,当上下文从常见的8K级别增至百万级tokens时,单用户推理的显存需求可能从几GB飙升至数百GB,系统性“存力瓶颈”问题随之凸显。 原因分析 1. 需求增速超越硬件升级:长上下文窗口的扩展速度远超单卡高带宽内存(HBM)容量提升。即使GPU迭代和低精度计算(如INT4/FP4)带来一定显存优化,仍难以完全抵消上下文需求的指数级增长。 2. 效率提升刺激需求释放:算法和工程优化降低了单token生成成本,促使云服务商增加并发量、延长上下文窗口并扩大调用频率,形成“成本下降—用量上升—资源消耗增加”的循环。 3. 供给受限与产业集中化:HBM等先进存储技术门槛高、扩产周期长,而AI服务器对带宽和容量的要求持续提升,导致资源向高端产品集中,加剧结构性短缺。 行业影响 存储正从配套环节升级为AI基础设施的核心瓶颈之一。产业链上游的HBM、封装及互连技术将维持高景气度;市场供需上,多品类存储芯片可能持续紧缺,价格或阶段性上涨。研报预测,供不应求的局面至少延续至2027年底。 对云厂商和算力运营商而言,存储性能直接决定推理效率和服务能力,影响智能体应用的落地速度和商业规模;企业用户则可能借助长上下文能力实现复杂场景应用(如多文档处理、跨系统任务编排),但需承担更高的IT成本和架构复杂度。 应对策略 1. 量化压缩:通过低精度推理和混合精度训练减少显存占用,优化部署成本。 2. 分层存储与近存计算:将高频数据贴近计算单元,复用内容下沉至专用存储层,提升GPU利用率。 3. 模型架构优化:采用GQA/MQA等注意力机制减少缓存需求,并探索面向长上下文的新算法。 未来展望 显存优化是长期趋势,但更可能释放而非抑制需求。随着智能体规模化部署,存储的容量、带宽和能效将成为基础设施升级重点。中信证券建议关注存储模组、原厂及高端产品链(如HBM)的投资机会,同时需警惕宏观环境、技术迭代和国际贸易等潜在风险。
从对话到智能体,应用形态的进化正重新定义算力基础设施的短板;当任务更复杂、并发更高时,存储能力不再是配角,而是决定效率与成本的核心。下一阶段的产业竞争中,谁能率先解决容量、带宽与系统协同的平衡问题,谁就能在新一轮技术浪潮中占据先机。