我国科研团队突破大模型训练稳定性瓶颈 新型神经网络架构引发行业关注

围绕大模型能力提升,业界长期面临一对矛盾:一方面需要更复杂、更丰富的网络连接以提高表达能力;另一方面,连接结构越“宽”、交互越强,越可能在大规模训练中触发梯度与信号的不稳定,带来训练崩溃、成本上升和迭代周期拉长等问题。

如何在性能与稳定之间实现可扩展的工程闭环,成为架构创新必须回答的核心命题。

从问题看,传统残差网络在大规模训练中因成熟稳定而被广泛采用,但在追求更强表达能力的背景下,业界开始探索更灵活的连接方式。

此前有研究提出通过拓宽残差连接通道、增加连接模式多样性来提升模型性能与可塑性,但在大模型训练场景中,残差通道间的耦合交互容易引起信号放大或衰减,轻则造成收敛变慢,重则引发训练失控,限制了新结构从“小模型有效”到“大模型可用”的跨越。

从原因看,大模型训练本质上是高维空间中的数值稳定性问题:网络越深、参数越多、层间交互越复杂,误差与波动在多层传播中越容易被放大。

尤其在连接结构更复杂的情况下,残差映射的数值性质直接影响信号在层间传递的均衡性。

一旦缺少约束机制,训练过程就可能出现“某些通道被放大、某些通道被淹没”的失衡状态,最终导致整体优化失败,训练资源投入难以转化为模型能力提升。

针对这一痛点,论文提出mHC的关键思路是在残差通道的交互环节引入“流形约束”,通过算法将映射矩阵投影到具有特定性质的集合中,使信号在传播过程中满足更强的守恒与均衡条件,从而为“易波动”的环节加上稳定机制。

论文给出的演示数据显示,在约270亿参数级别训练中,相关对比方案在训练到一定步数后出现信号剧烈放大并导致崩溃,而采用mHC后信号波动被控制在较低水平,训练过程保持平稳。

与此同时,论文称在部分基准评测中取得超过2%的提升,并在通道扩展后将额外训练时间开销控制在个位数百分比。

从影响看,这类“面向稳定性的结构约束”若在更广泛任务与更大规模训练中得到验证,可能带来三方面连锁效应:其一,模型架构创新路径或将从“堆参数、堆数据”进一步转向“改拓扑、提效率”,以更低边际成本撬动性能增益;其二,工程体系将更强调结构可训练性与训练鲁棒性,促使框架、算子、并行策略与监控工具围绕新连接模式进行适配;其三,对算力生态的牵引效应值得关注。

架构变化往往会改变计算与内存访问特征,进而影响训练吞吐、带宽瓶颈与算子融合空间,最终对软硬件协同提出新要求。

对芯片与系统厂商而言,谁能更快适配新结构、给出更优的训练效率方案,谁就可能在下一轮竞速中占据主动。

从对策看,面向产业落地,需要在“论文结果”与“工程可复现”之间建立更透明的验证链条:一是推动更多公开实现与可复现实验,覆盖不同参数规模、不同数据配方、不同并行策略,检验稳定性与收益的边界条件;二是完善评测体系,避免只在少数基准上“刷分”,更关注真实应用中的推理成本、长上下文能力、工具调用与安全对齐等综合指标;三是以开放协作为牵引,形成从模型结构、训练框架到算力平台的协同优化,降低新架构进入产业的门槛与试错成本。

从前景看,大模型发展正在从“规模驱动”走向“效率驱动”与“系统驱动”并重的阶段。

任何能够在不显著增加成本的前提下提升训练稳定性、扩大可扩展空间的架构改进,都可能成为下一轮迭代的重要变量。

但也应看到,架构创新最终要经受更大规模、更复杂任务以及更长周期训练的检验,尤其在多模态、长序列、复杂推理等场景下是否仍能保持稳定与收益,仍需更多数据与实践支撑。

深度求索mHC架构的发布,标志着大模型训练技术正在向更加稳定、高效的方向演进。

在人工智能产业竞争日益激烈的背景下,基础性技术突破往往能够产生乘数效应,重塑整个产业格局。

这一创新成果不仅体现了国内研究团队在基础算法领域的创新能力,也预示着中国在通用人工智能发展道路上正在取得越来越多的关键突破。

随着更多类似的底层技术创新涌现,我国在全球AI竞争中的技术优势有望进一步巩固。