中信证券研报：存力需求激增推动技术升级，存储产业迎来长期机遇

研报指出，智能体（Agent）应用的兴起正改变算力基础设施的需求格局：模型不仅需要“能回答问题”，还需具备规划、记忆、工具调用和持续执行能力，这显著增加了推理过程中的上下文长度，导致KV Cache等关键环节的显存占用大幅上升。以开源大模型为例，当上下文从常见的8K级别增至百万级tokens时，单用户推理的显存需求可能从几GB飙升至数百GB，系统性“存力瓶颈”问题随之凸显。原因分析 1. 需求增速超越硬件升级：长上下文窗口的扩展速度远超单卡高带宽内存（HBM）容量提升。即使GPU迭代和低精度计算（如INT4/FP4）带来一定显存优化，仍难以完全抵消上下文需求的指数级增长。 2. 效率提升刺激需求释放：算法和工程优化降低了单token生成成本，促使云服务商增加并发量、延长上下文窗口并扩大调用频率，形成“成本下降—用量上升—资源消耗增加”的循环。 3. 供给受限与产业集中化：HBM等先进存储技术门槛高、扩产周期长，而AI服务器对带宽和容量的要求持续提升，导致资源向高端产品集中，加剧结构性短缺。行业影响存储正从配套环节升级为AI基础设施的核心瓶颈之一。产业链上游的HBM、封装及互连技术将维持高景气度；市场供需上，多品类存储芯片可能持续紧缺，价格或阶段性上涨。研报预测，供不应求的局面至少延续至2027年底。对云厂商和算力运营商而言，存储性能直接决定推理效率和服务能力，影响智能体应用的落地速度和商业规模；企业用户则可能借助长上下文能力实现复杂场景应用（如多文档处理、跨系统任务编排），但需承担更高的IT成本和架构复杂度。应对策略 1. 量化压缩：通过低精度推理和混合精度训练减少显存占用，优化部署成本。 2. 分层存储与近存计算：将高频数据贴近计算单元，复用内容下沉至专用存储层，提升GPU利用率。 3. 模型架构优化：采用GQA/MQA等注意力机制减少缓存需求，并探索面向长上下文的新算法。未来展望显存优化是长期趋势，但更可能释放而非抑制需求。随着智能体规模化部署，存储的容量、带宽和能效将成为基础设施升级重点。中信证券建议关注存储模组、原厂及高端产品链（如HBM）的投资机会，同时需警惕宏观环境、技术迭代和国际贸易等潜在风险。

从对话到智能体，应用形态的进化正重新定义算力基础设施的短板；当任务更复杂、并发更高时，存储能力不再是配角，而是决定效率与成本的核心。下一阶段的产业竞争中，谁能率先解决容量、带宽与系统协同的平衡问题，谁就能在新一轮技术浪潮中占据先机。