DeepSeek提出新型神经网络架构mHC 助力大规模模型训练稳定性提升

近年来，围绕大模型“更强能力、更稳训练、更高效率”的目标，学界与产业界持续探索网络宏观架构创新。

残差连接因便于梯度传播、训练更稳定而成为过去十余年深度网络的常用范式。

但随着模型参数规模、训练数据量与推理需求不断攀升，传统架构在性能上触及瓶颈，新型连接方式成为重要突破口。

其中，超连接通过拓宽残差流宽度、引入更丰富的连接模式，被认为能够带来明显性能提升；与此同时，其在规模化训练中的稳定性、可扩展性与工程效率也暴露出新的挑战。

一、问题：性能提升与训练稳定的矛盾突出论文指出，连接模式的多样化在提升模型表征能力的同时，可能削弱残差连接“接近恒等映射”的关键属性。

对大规模训练而言，这种属性一旦被破坏，容易引发优化过程波动加剧，表现为训练不稳定、收敛难度上升，甚至影响模型扩展到更大规模时的可复制性。

此外，更复杂的连接结构往往伴随更频繁的内存访问与更高的通信、调度成本，导致训练吞吐下降，成为工程落地的阻碍。

二、原因：架构拓扑更复杂，带来优化与系统双重压力从算法层面看，残差结构之所以广泛适用，与其在训练早期可保持“近似直通”的梯度通道密切相关。

超连接将多种连接模式叠加后，残差通道的行为更难保持可控，模型在不同深度、不同宽度下的动态特性更复杂，放大了不稳定因素。

从工程层面看，大模型训练常受制于显存、带宽与算力利用率。

连接结构越复杂，越可能产生额外的张量读写与数据搬运开销，进而影响整体训练效率。

在“算法有效”与“系统高效”之间找到平衡，成为新架构能否规模化应用的关键。

三、影响：若难以稳定扩展，将限制新范式在大模型时代的价值释放对于行业而言，训练稳定性直接决定研发周期与成本控制。

训练不稳定意味着更多的试错、更长的训练时间以及更高的算力消耗；可扩展性不足则意味着新架构难以迁移到更大参数、更长上下文或更复杂任务场景中，难以支撑通用能力的持续提升。

从更宏观的视角看，基础模型的发展正进入“算力—数据—算法”协同优化阶段，单点突破难以形成持续优势。

能够同时兼顾理论属性与工程效率的结构创新，往往更具可复制与可推广价值。

四、对策：以“流形约束”恢复恒等映射特性，并引入基础设施级优化针对上述痛点，DeepSeek提出流形约束超连接（mHC）框架，核心思路是将超连接的残差连接空间投影到特定约束流形上，以在拓扑更丰富的情况下，恢复或逼近残差连接应有的恒等映射特性，从而提升训练稳定性。

论文将其定位为一种通用框架，意在兼容超连接的性能优势，同时通过约束机制把“可塑性”和“稳定性”的矛盾纳入可控范围。

同时，论文强调配套的基础设施级优化，以确保运行效率不过度受损。

其内部大规模训练结果显示，在扩展率为4的设置下，额外时间开销约为6.7%。

这意味着该方案试图在“更复杂结构”与“可接受成本”之间给出工程化答案，为其在更大规模场景的应用提供可行性信号。

五、前景：宏观架构设计或重新成为基础模型演进的重要变量论文在展望中提出，mHC作为对超连接范式的广义拓展，未来可在不同学习目标下探索多样的流形约束形式，并可能催生更好平衡稳定性与模型表达能力的新方法。

更重要的是，这一工作释放出一个趋势信号：在算力成本高企与应用需求加速的背景下，宏观架构设计可能重新成为推动基础模型迭代的关键抓手。

值得关注的是，DeepSeek近期也持续发布模型与实验版本，体现其在架构与能力演进上的密集探索。

业界普遍认为，通用模型的竞争正从单纯“参数规模竞赛”转向“结构创新、训练体系与工程效率”的综合比拼。

能否在稳定扩展的前提下获得确定性的性能增益，将成为新范式能否跨越实验室走向大规模生产的重要门槛。

基础模型架构创新是推动产业变革的关键力量。

深度求索此次发布的流形约束超连接架构,以严谨的科学方法解决实际技术难题,以可行的工程方案实现理论突破,为我国在基础模型领域的技术自立自强增添了新的注脚。

从追赶到并跑,再到部分领域的领跑,这一演进轨迹昭示着,唯有坚持深耕基础研究、勇于攻克核心技术,方能在新一轮科技革命中赢得主动。

期待更多科技企业以此为鉴,将创新资源向基础性、前瞻性领域倾斜,共同筑牢我国科技发展的根基。