DeepSeek提出新型神经网络架构mHC 助力大规模模型训练稳定性提升

近年来,围绕大模型“更强能力、更稳训练、更高效率”的目标,学界与产业界持续探索网络宏观架构创新。

残差连接因便于梯度传播、训练更稳定而成为过去十余年深度网络的常用范式。

但随着模型参数规模、训练数据量与推理需求不断攀升,传统架构在性能上触及瓶颈,新型连接方式成为重要突破口。

其中,超连接通过拓宽残差流宽度、引入更丰富的连接模式,被认为能够带来明显性能提升;与此同时,其在规模化训练中的稳定性、可扩展性与工程效率也暴露出新的挑战。

一、问题:性能提升与训练稳定的矛盾突出 论文指出,连接模式的多样化在提升模型表征能力的同时,可能削弱残差连接“接近恒等映射”的关键属性。

对大规模训练而言,这种属性一旦被破坏,容易引发优化过程波动加剧,表现为训练不稳定、收敛难度上升,甚至影响模型扩展到更大规模时的可复制性。

此外,更复杂的连接结构往往伴随更频繁的内存访问与更高的通信、调度成本,导致训练吞吐下降,成为工程落地的阻碍。

二、原因:架构拓扑更复杂,带来优化与系统双重压力 从算法层面看,残差结构之所以广泛适用,与其在训练早期可保持“近似直通”的梯度通道密切相关。

超连接将多种连接模式叠加后,残差通道的行为更难保持可控,模型在不同深度、不同宽度下的动态特性更复杂,放大了不稳定因素。

从工程层面看,大模型训练常受制于显存、带宽与算力利用率。

连接结构越复杂,越可能产生额外的张量读写与数据搬运开销,进而影响整体训练效率。

在“算法有效”与“系统高效”之间找到平衡,成为新架构能否规模化应用的关键。

三、影响:若难以稳定扩展,将限制新范式在大模型时代的价值释放 对于行业而言,训练稳定性直接决定研发周期与成本控制。

训练不稳定意味着更多的试错、更长的训练时间以及更高的算力消耗;可扩展性不足则意味着新架构难以迁移到更大参数、更长上下文或更复杂任务场景中,难以支撑通用能力的持续提升。

从更宏观的视角看,基础模型的发展正进入“算力—数据—算法”协同优化阶段,单点突破难以形成持续优势。

能够同时兼顾理论属性与工程效率的结构创新,往往更具可复制与可推广价值。

四、对策:以“流形约束”恢复恒等映射特性,并引入基础设施级优化 针对上述痛点,DeepSeek提出流形约束超连接(mHC)框架,核心思路是将超连接的残差连接空间投影到特定约束流形上,以在拓扑更丰富的情况下,恢复或逼近残差连接应有的恒等映射特性,从而提升训练稳定性。

论文将其定位为一种通用框架,意在兼容超连接的性能优势,同时通过约束机制把“可塑性”和“稳定性”的矛盾纳入可控范围。

同时,论文强调配套的基础设施级优化,以确保运行效率不过度受损。

其内部大规模训练结果显示,在扩展率为4的设置下,额外时间开销约为6.7%。

这意味着该方案试图在“更复杂结构”与“可接受成本”之间给出工程化答案,为其在更大规模场景的应用提供可行性信号。

五、前景:宏观架构设计或重新成为基础模型演进的重要变量 论文在展望中提出,mHC作为对超连接范式的广义拓展,未来可在不同学习目标下探索多样的流形约束形式,并可能催生更好平衡稳定性与模型表达能力的新方法。

更重要的是,这一工作释放出一个趋势信号:在算力成本高企与应用需求加速的背景下,宏观架构设计可能重新成为推动基础模型迭代的关键抓手。

值得关注的是,DeepSeek近期也持续发布模型与实验版本,体现其在架构与能力演进上的密集探索。

业界普遍认为,通用模型的竞争正从单纯“参数规模竞赛”转向“结构创新、训练体系与工程效率”的综合比拼。

能否在稳定扩展的前提下获得确定性的性能增益,将成为新范式能否跨越实验室走向大规模生产的重要门槛。

基础模型架构创新是推动产业变革的关键力量。

深度求索此次发布的流形约束超连接架构,以严谨的科学方法解决实际技术难题,以可行的工程方案实现理论突破,为我国在基础模型领域的技术自立自强增添了新的注脚。

从追赶到并跑,再到部分领域的领跑,这一演进轨迹昭示着,唯有坚持深耕基础研究、勇于攻克核心技术,方能在新一轮科技革命中赢得主动。

期待更多科技企业以此为鉴,将创新资源向基础性、前瞻性领域倾斜,共同筑牢我国科技发展的根基。