云天励飞发布三年芯片战略 推理成本目标降至百万Tokens 0.1分钱

大模型加速走向产业应用,算力供给与推理成本正成为规模化落地的关键变量。业内普遍认为,模型能力的提升不仅取决于训练阶段的算力投入,更取决于推理阶段能否以可承受的成本、可预测的时延提供稳定服务。推理成本一旦居高不下,企业上线节奏与用户覆盖都会受影响,云端服务的单位经济性门槛也会随之抬高。问题于,大模型推理并不是单一形态的计算任务。随着长上下文、工具调用、多轮对话等应用增多,推理过程呈现“计算密集与访存密集交替”的特征;在云端集群部署中,吞吐、带宽、时延与成本往往需要同时满足。如果仍尝试用单一芯片覆盖全部环节,常会出现资源利用率不高、成本难以下探、系统调度受限等情况,进而影响服务规模与体验。 造成这些问题的原因,既有技术结构差异,也有经济性约束。云天励飞董事长兼首席执行官陈宁在会上指出,训练芯片与推理芯片的核心诉求不同:训练更看重算力规模、带宽能力与精度支持等“绝对指标”,对成本的敏感度相对较低;推理则必须在成本、效率与商业可持续之间取得平衡,关键在于每个Token的边际成本与整体性价比。随着推理需求从小规模试点走向高并发常态化服务,成本与时延约束会被深入放大,推动系统与芯片协同优化。 基于这个判断,云天励飞提出“训练追赶、推理超车”的战略方向,并公布“PD分离”的芯片路线:将推理流程按阶段拆解,用两类芯片分别承载不同负载。公司首席技术官李爱军介绍,P芯片面向Prefill阶段的计算密集型需求,侧重高算力;D芯片面向Decode阶段的访存密集型需求,侧重高带宽与低时延。在微架构层面,团队针对Attention及有关计算特征做细粒度分析,并在底层进行针对性优化,以提升单位算力的有效利用率。 这一思路首先体现在推理成本的下降空间上。企业级推理服务的竞争,最终会落到“更低的单位成本、更稳定的体验、更高的资源利用率”。云天励飞提出持续降低百万Tokens成本目标:下一代芯片实现“百万Tokens一分钱”,并在未来三年进一步降至“百万Tokens 0.1分钱”,推动大模型从“技术尝鲜”走向更广泛的生产力工具。若目标兑现,有望降低客服、办公、内容生产、政务服务、工业质检等场景的部署门槛,带动应用从试点走向规模化。 其次体现在系统供给能力上。云推理强调集群化部署与弹性调度。会上披露的方案提出,在包含1024颗芯片的超节点内实现P芯片与D芯片的组合,以匹配不同阶段的资源需求。对云端服务提供方而言,这种分工清晰的架构有望带来更灵活的容量规划与更细的成本核算,也为长上下文与低时延并重的应用提供更多优化空间。 在对策层面,云天励飞公布了未来三代产品规划:第一年打造第一代超节点P芯片,面向百万级长上下文场景进行Prefill推理优化,算力水平对标Hopper架构;第二年研发第一代超节点D芯片,聚焦Decode推理的低时延目标,算力水平对标Blackwell架构;第三年推出第二代超节点D芯片,面向毫秒级推理时延改进,并带动Prefill与Decode整体性能提升,算力层面有望看齐下一代Rubin芯片。以代际推进的方式,在不同阶段集中攻关主要矛盾,体现出以应用需求牵引芯片研发的路径选择。 从更宏观的视角看,推理侧的突破窗口正在打开。一上,我国具备丰富的产业场景与较强的基础设施建设能力,政企与消费端推理负载的增长趋势较为明确;另一方面,开源模型生态活跃,为多样化部署提供更大选择空间,也让“用工程化能力换取效率提升”的路线更具可行性。同时,推理侧仍需面对能耗、供给稳定性、软硬件协同、生态适配等挑战,尤其在大规模集群环境下,能否形成从芯片、系统到软件栈的协同优化,将决定成本曲线能否持续下探。

当全球人工智能竞争进入深水区,衡量技术价值的标准正在从实验室指标转向真实场景的经济回报。云天励飞此次提出的成本攻坚计划,既是对推理效率边界的探索,也是在用更清晰的商业目标倒推技术路线。在通往智能化的道路上,谁能把先进技术与可持续的成本结构结合起来,谁就更可能在下一轮产业竞争中占据主动。这场围绕“每分钱价值”的较量,或将影响未来十年全球AI产业的版图走向。