问题——算力集群扩展遭遇“互连天花板” 超大参数模型训练与推理需求持续增长的背景下,数据中心算力竞争正从“单卡性能”转向“集群协同效率”。业内普遍认为,数百颗乃至上千颗图形处理器要组成统一计算域,关键在于节点间能否以足够带宽、足够低时延完成通信。长期承担此任务的铜缆互连正在接近极限:当信号速率提升到一定水平,可稳定传输的距离会快速缩短,跨机柜扩展难度明显增加,同时布线体积、功耗和运维复杂度同步上升。英伟达在涉及的机柜方案中通过高度集成大量铜线来维持带宽,但在继续扩容时,机柜空间与传输距离之间的矛盾更加突出。 原因——物理约束叠加能耗压力,外置光模块路径受限 瓶颈的核心来自电信号传输的衰减、串扰以及散热限制。速率越高,铜缆对距离越敏感,系统不得不采用更密集的布线和更复杂的信号补偿,由此带来额外能耗与热管理压力。为突破机柜间距离限制,一些方案尝试用可插拔光模块将电信号转换为光信号。但在超高密度集群中,光模块数量巨大,功耗与空间成本随之放大,难以兼顾规模化部署的成本与可靠性。这促使行业转向更高集成度的光互连路线。 影响——光互连从“可选项”转为“必答题”,产业链随之重构 互连能力直接决定集群的可扩展性与单位算力效率。在互连受限时,简单增加计算卡数量未必带来线性收益,反而可能因通信等待拉低整体效率,抬高训练成本并延长交付周期。引入光互连后,带宽与距离约束将明显缓解:光纤具备更高的速率潜力、更低的传输损耗与更优的能效表现,为跨机柜、跨机架的大规模组网提供可行路径。对产业链而言,这一变化将带动激光器、硅光/化合物半导体工艺、光电封装、交换芯片以及数据中心布线体系的协同升级,数据中心网络的价值占比也有望继续提升。 对策——共封装光学加速落地,资本与生态同步推进 为降低光互连的功耗与体积成本,英伟达正推动“共封装光学”等技术路径,将光引擎与交换芯片更紧密地集成,减少传统光模块的外壳、连接器与冗余器件,从而在能耗与密度上获得优势。同时,英伟达在交换机与互连平台层面推进相关产品落地,并明确表示短期内机柜内部仍会保留铜缆以控制成本,中长期则推动光学能力向更靠近计算芯片的方向演进,以进一步降低时延并提升可扩展性。 在产业协同上,英伟达通过投资与合作补强关键环节供给,包括面向共封装光学的高功率激光器能力、以磷化铟等材料为代表的光芯片制造与代工产能,以及将高速互连更深度融入网络与加速计算平台的系统级方案。业内人士指出,高速连接正成为扩展大规模计算的关键基础设施,围绕光互连的标准、接口与生态竞争将更加激烈。 前景——算力竞赛或转向“互连与系统工程”综合比拼 从趋势看,未来数据中心的竞争重点将不再局限于单颗芯片算力,而是转向“计算—网络—互连—封装—散热”的系统工程能力。随着共封装光学逐步成熟,光互连有望进一步下沉到更贴近计算单元的位置,推动集群规模从数百卡迈向更大规模,并在能耗约束趋紧的背景下提升单位能效产出。此外,光互连仍处于产业化爬坡阶段,良率、可靠性、可维护性、成本曲线与供应链弹性等因素,将决定其从试点走向大规模部署的速度。可以预见,围绕光互连的投入将持续增加,相关技术路线与标准体系也将加快收敛。
从铜缆到光纤,不只是材料与器件的替换,更意味着算力基础设施从“堆硬件”转向系统工程能力的竞争。谁能更早在带宽、时延、能耗与可运维性之间建立新的平衡,谁就更可能在下一阶段的大模型竞赛中掌握规模化扩展的主动权。光互连正在加速进入应用窗口,其价值仍将通过持续的工程验证与产业协同逐步兑现。