问题——大模型“越做越大”的同时,底层效率瓶颈仍待突破;当前主流大模型多以2017年提出的Transformer架构为基础,推动了生成式技术快速演进。但模型层与层之间的信息传递上,行业长期沿用相对固定的路径:残差连接。残差连接结构简单、训练稳定,便于扩展深层网络;但当层数持续增加时,早期层的关键信息可能在叠加过程中被稀释——导致“信息带宽”利用不足——进而推高训练与迭代成本。在算力资源日益成为关键约束的背景下,如何在不牺牲效果的前提下提升训练和推理效率,成为大模型工程与基础研究共同面对的核心议题。 原因——通用“无差别传递”与实际“按需选择”之间存在结构性矛盾。残差连接本质上是将上一层输出与当前层输出相加,使网络能够保留历史信息并缓解梯度消失。然而,大模型在不同任务、不同上下文下,对历史信息的依赖并不均匀:有的场景更需要局部细节,有的场景更依赖长程关联。若仍采用“每一层接收全部历史的同等叠加”,可能带来两类问题:其一,有价值信号被冗余信息冲淡;其二,计算资源被消耗在并不关键的信息通路上。此次月之暗面团队提出的“注意力残差”思路,正是将“选择性”引入残差路径:不再让每层对前序信息无差别继承,而是通过注意力机制按当前需要调取更有参考价值的内容,从机制上提高信息利用效率。 影响——在保证效果的同时降低训练成本,释放工程替换空间。从公开论文与项目介绍看,“注意力残差”已在Kimi Linear 48B模型完成验证:在相近效果下,训练计算量可减少约20%,折算为约1.25倍效率优势;推理侧延迟增幅不足2%,且可直接替换标准残差连接。业内人士认为,这类结果的意义不止于“跑得更快”,更在于为模型结构优化提供了更可落地的路径:如果能以较低的工程改造成本换取稳定的计算节省,就能直接降低训练费用、缩短研发迭代周期,并为在同等算力条件下探索更长上下文、更大参数规模或更复杂对齐训练留出空间。更重要的是,该研究传递出一个信号:大模型并非只能依赖“堆参数、堆数据、堆算力”,底层机制仍有优化的窗口。 对策——以协同攻关推动基础机制创新与工程验证并进。此次成果引发关注,除技术本身外,也与团队结构和协作方式有关。论文附录显示,作者名单中前三位被标注为同等贡献。其中,陈广宇来自深圳,为在读高中生;其余共同一作还包括张宇、苏剑林等研究人员。公开信息显示,苏剑林提出的旋转位置编码(RoPE)已被业界广泛采用,反映了长期积累与方法创新的结合。陈广宇在采访中也表示,希望外界更多把目光放在团队对大模型底层技术的共同攻关上。 从产业发展角度看,大模型竞争正从“可用”走向“好用、经济、可控”,更需要研究、工程与基础设施合力推进:一上,算法层面持续探索层间信息传递、注意力计算、位置编码等关键机制的改进;另一上,通过规模化训练与公开评测加强可复现验证,降低“只在小实验有效”的不确定性;同时完善工具链与基础设施,让新机制更快迁移到真实产品与服务中。 前景——底层机制的微创新,可能带来系统级的“乘数效应”。业内普遍认为,大模型的长期演进将呈现“双轮驱动”:一是规模化带来的能力上限提升,二是结构与训练方法优化带来的效率跃迁。“注意力残差”这类对底层通路的改造单点看似细微,但一旦在更大规模、更长训练周期、更广任务分布中稳定成立,往往会形成系统级的乘数效应:节省的算力可转化为更高频的迭代、更充分的对齐训练以及更广泛的应用部署。同时,随着更多研究力量投入底层机制优化,未来可能围绕层间通信、稀疏化计算、记忆机制与模型路由等方向出现组合创新,推动大模型从“高成本能力”走向“高效率能力”。
从一项机制改进引发关注,到团队协作与青年参与成为讨论焦点,事件背后折射出大模型发展进入“精耕细作”的新阶段;面向未来,谁能在底层方法、工程体系与人才梯队上形成持续创新能力,谁就更可能在新一轮技术与产业竞速中占据主动。创新不只来自聚光灯下的个体,也来自长期投入、开放验证与协同攻关的集体努力。