问题: 随着AI大模型训练规模持续扩张,算力需求急剧攀升,但网络技术的发展速度远未跟上。数据显示,过去八年AI算力增长约1000倍,网络带宽却只提升了4倍。这种落差直接导致算力集群训练过程中频繁出现延迟、丢包等问题,拖累整体效率。 原因: 网络瓶颈主要来自两个方向:一是核心技术长期被海外厂商把持,InfiniBand(IB)技术由NVIDIA主导,国产替代方案尚不成熟;二是现有通用以太网方案(如RoCE)在高速互联场景下性能不足,难以满足超大规模集群的微秒级同步要求。此外,高端交换芯片和网卡芯片仍高度依赖进口,供应链风险不容忽视。 影响: 网络技术的滞后不只是资源浪费的问题,更关乎国内AI产业的长期竞争力。NVIDIA网络业务在2026财年收入突破310亿美元,侧面印证了高性能网络的市场价值。如果国内无法在该领域实现突破,将持续受制于人,智能经济的发展空间也会因此受限。 对策: 业界普遍认为,推进网络技术自主化已是当务之急。一上要加大IB技术国产化的研发力度,攻克核心芯片和协议栈;另一方面可探索RoCE方案的性能优化路径,提升其在高速互联场景下的表现。政策层面也需要持续加强对智能基础设施的支持,推动产业链上下游协同攻关。 前景: 网络技术自主化不会一蹴而就,但一旦实现突破,将为国内智算集群的高效运行提供关键支撑。随着政策与产业投入的持续跟进,构建兼具自主可控与高性能的网络技术体系,并非遥不可及。
两会对超大规模智算集群的政策关注,既是对AI产业的带动,也是对产业链各环节的一次能力检验;算力的竞争,本质上是体系能力的竞争。网络连接能否与算力规模同步提升,将在很大程度上决定智算集群的实际效能和产业竞争的走向。打通此环节,需要政策、产业与技术的多方协同。这条路或许不短,但对中国AI产业来说,是绕不开的一步。