云天励飞发布三年芯片战略推理成本目标降至百万Tokens 0.1分钱

大模型加速走向产业应用，算力供给与推理成本正成为规模化落地的关键变量。业内普遍认为，模型能力的提升不仅取决于训练阶段的算力投入，更取决于推理阶段能否以可承受的成本、可预测的时延提供稳定服务。推理成本一旦居高不下，企业上线节奏与用户覆盖都会受影响，云端服务的单位经济性门槛也会随之抬高。问题于，大模型推理并不是单一形态的计算任务。随着长上下文、工具调用、多轮对话等应用增多，推理过程呈现“计算密集与访存密集交替”的特征；在云端集群部署中，吞吐、带宽、时延与成本往往需要同时满足。如果仍尝试用单一芯片覆盖全部环节，常会出现资源利用率不高、成本难以下探、系统调度受限等情况，进而影响服务规模与体验。造成这些问题的原因，既有技术结构差异，也有经济性约束。云天励飞董事长兼首席执行官陈宁在会上指出，训练芯片与推理芯片的核心诉求不同：训练更看重算力规模、带宽能力与精度支持等“绝对指标”，对成本的敏感度相对较低；推理则必须在成本、效率与商业可持续之间取得平衡，关键在于每个Token的边际成本与整体性价比。随着推理需求从小规模试点走向高并发常态化服务，成本与时延约束会被深入放大，推动系统与芯片协同优化。基于这个判断，云天励飞提出“训练追赶、推理超车”的战略方向，并公布“PD分离”的芯片路线：将推理流程按阶段拆解，用两类芯片分别承载不同负载。公司首席技术官李爱军介绍，P芯片面向Prefill阶段的计算密集型需求，侧重高算力；D芯片面向Decode阶段的访存密集型需求，侧重高带宽与低时延。在微架构层面，团队针对Attention及有关计算特征做细粒度分析，并在底层进行针对性优化，以提升单位算力的有效利用率。这一思路首先体现在推理成本的下降空间上。企业级推理服务的竞争，最终会落到“更低的单位成本、更稳定的体验、更高的资源利用率”。云天励飞提出持续降低百万Tokens成本目标：下一代芯片实现“百万Tokens一分钱”，并在未来三年进一步降至“百万Tokens 0.1分钱”，推动大模型从“技术尝鲜”走向更广泛的生产力工具。若目标兑现，有望降低客服、办公、内容生产、政务服务、工业质检等场景的部署门槛，带动应用从试点走向规模化。其次体现在系统供给能力上。云推理强调集群化部署与弹性调度。会上披露的方案提出，在包含1024颗芯片的超节点内实现P芯片与D芯片的组合，以匹配不同阶段的资源需求。对云端服务提供方而言，这种分工清晰的架构有望带来更灵活的容量规划与更细的成本核算，也为长上下文与低时延并重的应用提供更多优化空间。在对策层面，云天励飞公布了未来三代产品规划：第一年打造第一代超节点P芯片，面向百万级长上下文场景进行Prefill推理优化，算力水平对标Hopper架构；第二年研发第一代超节点D芯片，聚焦Decode推理的低时延目标，算力水平对标Blackwell架构；第三年推出第二代超节点D芯片，面向毫秒级推理时延改进，并带动Prefill与Decode整体性能提升，算力层面有望看齐下一代Rubin芯片。以代际推进的方式，在不同阶段集中攻关主要矛盾，体现出以应用需求牵引芯片研发的路径选择。从更宏观的视角看，推理侧的突破窗口正在打开。一上，我国具备丰富的产业场景与较强的基础设施建设能力，政企与消费端推理负载的增长趋势较为明确；另一方面，开源模型生态活跃，为多样化部署提供更大选择空间，也让“用工程化能力换取效率提升”的路线更具可行性。同时，推理侧仍需面对能耗、供给稳定性、软硬件协同、生态适配等挑战，尤其在大规模集群环境下，能否形成从芯片、系统到软件栈的协同优化，将决定成本曲线能否持续下探。

当全球人工智能竞争进入深水区，衡量技术价值的标准正在从实验室指标转向真实场景的经济回报。云天励飞此次提出的成本攻坚计划，既是对推理效率边界的探索，也是在用更清晰的商业目标倒推技术路线。在通往智能化的道路上，谁能把先进技术与可持续的成本结构结合起来，谁就更可能在下一轮产业竞争中占据主动。这场围绕“每分钱价值”的较量，或将影响未来十年全球AI产业的版图走向。

云天励飞发布三年芯片战略 推理成本目标降至百万Tokens 0.1分钱

云天励飞发布三年芯片战略推理成本目标降至百万Tokens 0.1分钱