从“无差别相加”到“跨层注意力”:Kimi团队提出新型残差连接引发业内关注

问题——残差连接“好用但不完美”的结构瓶颈逐渐显现;残差连接自提出以来,因能缓解梯度消失、支持更深网络训练,成为深度学习模型的常用组件,并Transformer等架构中长期沿用。但随着模型规模增大、层数加深,其结构性问题更常被观察到:一是信息在逐层累加中容易被“稀释”,早期层的贡献被后续累加掩盖;二是累加路径缺少选择性,不同功能模块(如注意力层与前馈网络层)拿到的都是同一份聚合状态,难以按需获得更合适的信息组合;三是累加会推高隐藏状态幅度,层数越深幅度越大,导致深层往往需要更大的输出变化才能体现作用,训练稳定性风险随之上升。一些实证研究也有类似现象:剪掉某些层后最终性能变化不大,暗示部分层的有效信息可能在输出中被“淹没”。 原因——深度维度存在类似“循环依赖”的信息压缩机制。从机理上看,残差连接在深度方向形成近似“单通道汇总”的信息传递方式:每一层主要基于上一层累加后的状态更新,早期层的细节不断被压进一个越来越混杂、越来越膨胀的表示里。这与早期序列建模中循环结构的局限有相似之处:循环网络在时间维度只能依赖上一时刻的压缩状态传递信息,长程依赖容易衰减;而Transformer通过注意力让每个位置能直接访问更广范围的上下文,提升信息保留与调用效率。Kimi团队据此提出类比:既然注意力能在序列维度提升信息可达性,是否也能在深度维度提升“跨层可访问性”,减少累加带来的稀释和不可逆压缩。 影响——以注意力替代“无差别累加”,有望提高算力利用率并形成更可解释的层间路由。Kimi团队在报告中提出AttnRes思路:将原本按固定规则相加的残差路径,改为引入注意力机制进行加权汇聚,使每一层在接收历史层信息时具备“按需检索、择优组合”的能力。直观来看,这相当于把“逐层堆叠”的通道改成“可查询的层间索引”:后续层不必被动接收一份不断膨胀的混合状态,而能根据当前计算需要选择更合适的历史表示。团队在Kimi Linear架构(报告提及总参数与激活参数规模)上给出验证结果:在推理延迟增加不大的前提下,整体效果可折算为约1.25倍的算力收益。若该结果能在更多任务与更复杂部署条件下复现,意味着同等资源下可获得更高质量输出,或在相同性能目标下减少计算开销。 对策——以工程可落地为目标,仍需在稳定性、成本与通用性上继续验证。业内人士指出,结构创新从论文指标走向规模化应用,往往要经受多轮检验。第一,训练与推理稳定性需要在不同数据分布与任务类型上验证,尤其是超长上下文、对齐训练与多轮推理等复杂场景。第二,将注意力引入深度维度可能带来额外显存占用、算子效率与并行策略上的挑战,需要与现有加速体系协同优化,才能真实部署中兑现“低延迟增幅”的预期。第三,不同模型家族(稠密模型、混合专家、多模态架构)对残差路径的依赖方式不同,AttnRes能否通用适配仍取决于更多公开复现与对比实验。第四,结构变化可能影响模型可控性与调参复杂度,工程团队需要沉淀可复用的配置范式与诊断工具,避免“性能收益”被调参成本抵消。 前景——深度方向“可检索化”或成为下一阶段架构探索重点。近年来,模型架构的迭代多集中在注意力变体、位置编码、专家路由与推理优化等方向,而残差连接作为基础构件相对稳定。AttnRes把改造重点指向这个长期默认配置,表达出一个信号:在模型规模已大、算力约束趋紧的背景下,提升算力利用效率不仅靠更大的模型与更多数据,也需要在网络信息流动机制上做更精细的设计。若深度维度的注意力路由逐步成熟,未来可能出现更具“层间选择性”的网络形态:一上减少无效层贡献,提高有效计算占比;另一方面为模型分析、剪枝与动态计算提供新的结构抓手,推动从“堆得更深”转向“算得更聪明”。

从跟随到引领,此进展不仅回应了具体的结构瓶颈,也说明了中国科研团队在基础研究与工程实现上的积累。期待更多面向核心问题的原创探索持续涌现,为全球人工智能技术演进提供更扎实、可复用的解决方案。