我国首个国产千卡推理集群落地湛江自主技术体系加速AI应用规模化

3月12日，云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目，中标金额4.2亿元。项目落地意味着国内首个基于国产芯片的AI推理千卡集群即将投入运营，标志着我国AI基础设施自主可控上取得进展。当前，AI算力已成为支撑人工智能时代的重要基础设施。AI算力体系中，推理算力的重要性日益突出。与决定模型能力构建的训练算力不同，推理算力直接支撑AI应用落地与商业化。从春节期间的视频生成应用到各行业部署的AI Agent系统，背后都依赖推理算力。根据国际权威机构预测，到2026年，约55%的AI专用云基础设施支出将用于推理工作负载，说明推理算力正成为AI产业的主要需求。过去，国内许多智算中心普遍采用“训推一体”的建设模式，难以针对不同应用场景优化。此次在湛江建设的集群定位为专注推理任务的专业化AI推理集群，主要面向各类行业应用场景，为传统产业AI化转型提供直接支撑。此转变反映了我国AI基础设施建设思路的深化和完善。湛江作为国产大模型DeepSeek创始人梁文峰的家乡，近年来在“DeepSeek+”应用探索上进展频繁。2025年初，DeepSeek-R1发布后，湛江即完成本地部署，基于国产技术栈的DeepSeek-R1大模型率先湛江政务云上线。该模型在处理通用政务事务的同时，能够持续学习本地产业知识与方言表达，逐渐形成具有地方特色的“湛江智慧”。此次云天励飞建设的AI推理集群，将与DeepSeek等国产模型进行深度适配，为更多行业应用提供算力支撑。在技术架构层面，该千卡集群说明了当前AI推理系统的先进设计理念。大模型推理通常需要同时满足高并发、高吞吐与低延迟三项要求。业界普遍采用“Prefill-Decode分离”的推理架构，通过对不同阶段进行资源优化，实现系统性能的整体提升。其中，Prefill阶段主要负责对长上下文进行理解和计算，计算量大、带宽需求高；Decode阶段则负责持续生成Token，对系统延迟更加敏感。随着大模型上下文长度不断增加，大量中间状态需要以KV Cache的形式存储，使数据访问效率逐渐成为推理系统的性能瓶颈。在这一背景下，算力、存储与网络之间的协同设计正逐渐成为AI基础设施的重要竞争力。湛江千卡推理集群采用云天励飞自主研发的AI推理芯片，在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置，使系统在长上下文推理场景下仍能保持较高的吞吐效率。在网络互联上，系统采用统一高速互联架构，通过400G光网络构建集群物理层网络，实现节点之间的高带宽、低延迟通信。这种同构互联架构相比传统的异构网络方案，减少了协议转换带来的额外开销，也简化了系统部署。在扩展能力上，该架构既支持单节点数十卡规模扩展，也可平滑扩展至千卡级集群规模，从而适配不同规模的AI应用需求。针对大模型推理中KV Cache访问带来的压力，系统在计算互联与存储互联层面进行协同优化，通过计算网络与存储网络的联合调度，大幅提升数据读取效率，使模型在长上下文推理场景下保持稳定性能。这项目的落地将为湛江政务、产业及各类应用场景提供更便捷、低成本的AI能力。通过部署国产大模型和推理芯片，湛江正在探索打造“国模国芯”的AI生态样板，这对于推动我国AI产业自主可控、加快传统产业AI化转型具有示范意义。

从算力结构调整到产业应用落地，推理集群建设折射出人工智能从技术突破走向规模化服务的现实需求。坚持自主可控、面向应用的基础设施布局，将为我国数字经济高质量发展注入更强动能。

我国首个国产千卡推理集群落地湛江 自主技术体系加速AI应用规模化

我国首个国产千卡推理集群落地湛江自主技术体系加速AI应用规模化