一、背景:算力基础设施进入"推理优先"新阶段 在人工智能时代,智能算力正成为支撑经济社会数字化转型的重要基础设施,其重要性可类比工业时代的电力网络与信息时代的互联网体系。在算力体系中,训练算力与推理算力分工不同:训练负责模型能力的构建,推理则直接支撑各类人工智能应用的实际运行。 随着大模型加速进入各行业,推理算力需求快速增长。国际研究机构预测,到2026年,全球约55%的人工智能专用云基础设施支出将用于推理工作负载。这意味着,人工智能基础设施建设重心正在从以训练为主的能力构建,转向以推理为主的应用落地。 鉴于此,国内智算中心的建设模式也在调整。过去“训推一体”较为常见,但随着应用场景更丰富、规模更大,面向推理任务的专用集群正逐渐成为新的建设方向。 二、事件:湛江落地国内首个国产推理千卡集群 3月12日,云天励飞技术股份有限公司中标湛江市人工智能渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。按项目规划,该集群将全面采用云天励飞自研的国产人工智能推理加速芯片,建设规模达千卡量级,定位为专注推理任务的专用智算集群。 值得一提的是,湛江是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地持续推进国产大模型的本地化应用。2025年初,湛江率先完成DeepSeek-R1大模型在政务云的本地部署,在处理通用政务事务的同时,逐步融合本地产业知识与方言表达,形成更贴近地方需求的智能服务能力。此次千卡推理集群落地,将深入提升湛江在国产人工智能应用探索上的先发优势,为更多行业场景提供稳定、高效的算力支撑。 三、分析:技术架构围绕推理效能进行系统性优化 在大模型应用中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求,这对底层架构提出了较高挑战。 此次千卡集群采用业界主流的“预填充—解码分离”推理架构。预填充阶段主要处理长上下文理解与计算,计算量大、带宽需求高;解码阶段负责持续生成输出,对系统延迟更敏感。针对两阶段差异,集群在芯片设计层面进行差异化配置,确立“优先优化预填充、兼顾解码”的路线,使系统在长上下文推理场景下仍能保持较高吞吐效率。 在网络互联层面,集群采用400G光网络构建统一高速互联架构,实现节点间高带宽、低延迟通信。相较节点内外使用不同协议的传统方案,同构互联减少了协议转换开销,也降低了部署复杂度。在扩展能力上,该架构既可支持单节点数十卡运行,也能平滑扩展至千卡级集群,具备较强的弹性。 此外,针对大模型推理过程中中间状态缓存访问压力上升的问题,集群在计算互联与存储互联层面进行了协同优化,通过计算网络与存储网络的联合调度机制提升数据读取效率,保障复杂推理任务下的稳定运行。 四、影响:推动"国模国芯"生态加速成型 此次项目落地具有示范意义。从产业层面看,该集群推动国产推理芯片与国产大模型的深度适配,探索形成“国模国芯”协同运行的生态链条,为国产人工智能技术栈的规模化应用提供了可复制的实践样本。 从区域发展层面看,湛江通过引入高规格人工智能基础设施,把地方产业需求与国家战略方向更紧密地结合起来,为传统产业智能化升级提供直接支撑,也为其他地区推进新质生产力建设提供了可参考的路径。
从蒸汽机到电力网,每一次基础设施升级都在重塑经济社会格局。湛江推理千卡集群的落地,不仅表明了我国在人工智能关键基础设施上的能力提升,也提示了一条更清晰的路径:将自主创新与产业需求更紧密地结合,才能形成可持续的数字生态。随着更多城市探索并复制“技术—产业—区域”协同的发展模式,中国在新一轮全球科技竞争中的优势也将更巩固。