超大规模智算集群加速建设两会热议"以网强算"破局高性能互联难题

问题：随着AI大模型训练规模持续扩张，算力需求急剧攀升，但网络技术的发展速度远未跟上。数据显示，过去八年AI算力增长约1000倍，网络带宽却只提升了4倍。这种落差直接导致算力集群训练过程中频繁出现延迟、丢包等问题，拖累整体效率。原因：网络瓶颈主要来自两个方向：一是核心技术长期被海外厂商把持，InfiniBand（IB）技术由NVIDIA主导，国产替代方案尚不成熟；二是现有通用以太网方案（如RoCE）在高速互联场景下性能不足，难以满足超大规模集群的微秒级同步要求。此外，高端交换芯片和网卡芯片仍高度依赖进口，供应链风险不容忽视。影响：网络技术的滞后不只是资源浪费的问题，更关乎国内AI产业的长期竞争力。NVIDIA网络业务在2026财年收入突破310亿美元，侧面印证了高性能网络的市场价值。如果国内无法在该领域实现突破，将持续受制于人，智能经济的发展空间也会因此受限。对策：业界普遍认为，推进网络技术自主化已是当务之急。一上要加大IB技术国产化的研发力度，攻克核心芯片和协议栈；另一方面可探索RoCE方案的性能优化路径，提升其在高速互联场景下的表现。政策层面也需要持续加强对智能基础设施的支持，推动产业链上下游协同攻关。前景：网络技术自主化不会一蹴而就，但一旦实现突破，将为国内智算集群的高效运行提供关键支撑。随着政策与产业投入的持续跟进，构建兼具自主可控与高性能的网络技术体系，并非遥不可及。

两会对超大规模智算集群的政策关注，既是对AI产业的带动，也是对产业链各环节的一次能力检验；算力的竞争，本质上是体系能力的竞争。网络连接能否与算力规模同步提升，将在很大程度上决定智算集群的实际效能和产业竞争的走向。打通此环节，需要政策、产业与技术的多方协同。这条路或许不短，但对中国AI产业来说，是绕不开的一步。

超大规模智算集群加速建设 两会热议"以网强算"破局高性能互联难题

超大规模智算集群加速建设两会热议"以网强算"破局高性能互联难题