达摩院或将推出面向智能体应用的新型芯片,瞄准交互式算力能效与时延瓶颈

(问题)随着大模型应用从文本生成、图像识别等单点任务,逐步走向能环境中持续感知、规划并执行行动的智能体形态,算力瓶颈也在变化:不再只比“算得快”,而更看重“决策快、响应稳、能耗低”。在真实业务中,智能体常常要在不确定环境里进行实时推理——反复调用记忆与工具——完成多步骤的规划与验证。传统以批处理推理为主的计算平台,面对高频交互、强状态依赖、计算图动态变化等负载时,容易出现资源利用率下降、数据搬运开销上升和时延波动等问题。 (原因)回顾计算硬件的演进,中央处理器擅长通用逻辑与串行控制,图形处理器凭借并行架构在矩阵运算中占优,推动了深度学习规模化发展。但智能体的计算模式并不等同于一次前向推理:一上,任务链条更长,往往包含检索、规划、反思、工具调用、类似强化学习的评估等环节;另一方面,计算更“碎片化”,常伴随稀疏激活、分支跳转与动态拓扑,导致固定数据流架构部分环节效率下降。更关键的是,智能体需要持续维护上下文与记忆状态,频繁访问存储层级;若数据频繁在片外往返,时延与能耗都会被放大。因此,面向智能体的算力需求呈现明显的非线性特征:并非模型参数越大就必然需要越高算力,而是与环境复杂度、交互频率、决策实时性以及工具链调用深度密切涉及的。 (影响)若达摩院此时推出面向智能体的新型芯片,其意义在于指向一个趋势:算力竞争正在进入以“交互与决策效率”为核心的新阶段。对行业而言,可能带来三上变化。其一,评价体系将更趋多维,单一峰值算力或传统基准分数难以完整刻画智能体负载,更需要结合单位决策能耗、每秒决策次数、端到端时延稳定性与动态上下文处理能力等指标。其二,软硬件协同会更紧密:谁能把智能体常见计算模式抽象为可复用的编译与运行时能力,谁就更可能在实际部署中占据优势。其三,产业链分工可能加速,通用算力、推理加速、决策控制以及存储互连等方向的专用化边界会更清晰。 (对策)从技术路径看,面向智能体的专用芯片通常需要在架构层面进行定向增强。一是提升对稀疏计算与动态图的支持,例如引入可重构计算单元或更灵活的任务调度机制,减少分支与不规则计算带来的浪费。二是优化片上存储层级与数据搬运机制,通过更高带宽的片上/近存储设计,降低频繁访问外部存储造成的延迟与功耗。三是围绕关键算法环节配置专用加速能力,例如为策略评估、搜索与采样等常见过程提供更高效执行通道。四是采用异构集成思路,将通用处理核心、专用模块与高带宽内存等更紧密地封装,在灵活性与效率之间取得平衡。同时,软件栈适配同样关键:只有开发工具、编译器与运行时系统能将智能体的多阶段流程有效映射到底层硬件,芯片的结构优势才能转化为实际吞吐与时延收益。 (前景)展望未来,智能体应用若在政务服务、工业运维、软件工程、终端助手等领域加速落地,对算力的要求将更强调“实时闭环”和“持续在线”。这意味着芯片企业不仅要在工艺与集成上持续迭代,更要在系统级能力上形成优势,包括内存互连、任务编排、能耗管理与安全隔离等。业内人士认为,面向智能体的专用芯片若能在典型负载下实现更优能效比与更低响应时延,有望打开新的增量市场,并推动计算平台从“以数据吞吐为中心”逐步转向“以决策流为中心”的结构性调整。

当计算技术从感知智能走向认知智能,硬件创新正在开启新的产业叙事。达摩院的此次技术探索,不仅是对特定场景需求的回应,也反映了对计算形态变化的再思考。在数字化转型进入深水区的背景下,这种将算法特性与硬件设计更紧密结合的实践,或可为中国科技企业的自主创新提供新的参考路径。