从“无差别相加”到“跨层注意力”：Kimi团队提出新型残差连接引发业内关注

问题——残差连接“好用但不完美”的结构瓶颈逐渐显现；残差连接自提出以来，因能缓解梯度消失、支持更深网络训练，成为深度学习模型的常用组件，并Transformer等架构中长期沿用。但随着模型规模增大、层数加深，其结构性问题更常被观察到：一是信息在逐层累加中容易被“稀释”，早期层的贡献被后续累加掩盖；二是累加路径缺少选择性，不同功能模块（如注意力层与前馈网络层）拿到的都是同一份聚合状态，难以按需获得更合适的信息组合；三是累加会推高隐藏状态幅度，层数越深幅度越大，导致深层往往需要更大的输出变化才能体现作用，训练稳定性风险随之上升。一些实证研究也有类似现象：剪掉某些层后最终性能变化不大，暗示部分层的有效信息可能在输出中被“淹没”。原因——深度维度存在类似“循环依赖”的信息压缩机制。从机理上看，残差连接在深度方向形成近似“单通道汇总”的信息传递方式：每一层主要基于上一层累加后的状态更新，早期层的细节不断被压进一个越来越混杂、越来越膨胀的表示里。这与早期序列建模中循环结构的局限有相似之处：循环网络在时间维度只能依赖上一时刻的压缩状态传递信息，长程依赖容易衰减；而Transformer通过注意力让每个位置能直接访问更广范围的上下文，提升信息保留与调用效率。Kimi团队据此提出类比：既然注意力能在序列维度提升信息可达性，是否也能在深度维度提升“跨层可访问性”，减少累加带来的稀释和不可逆压缩。影响——以注意力替代“无差别累加”，有望提高算力利用率并形成更可解释的层间路由。Kimi团队在报告中提出AttnRes思路：将原本按固定规则相加的残差路径，改为引入注意力机制进行加权汇聚，使每一层在接收历史层信息时具备“按需检索、择优组合”的能力。直观来看，这相当于把“逐层堆叠”的通道改成“可查询的层间索引”：后续层不必被动接收一份不断膨胀的混合状态，而能根据当前计算需要选择更合适的历史表示。团队在Kimi Linear架构（报告提及总参数与激活参数规模）上给出验证结果：在推理延迟增加不大的前提下，整体效果可折算为约1.25倍的算力收益。若该结果能在更多任务与更复杂部署条件下复现，意味着同等资源下可获得更高质量输出，或在相同性能目标下减少计算开销。对策——以工程可落地为目标，仍需在稳定性、成本与通用性上继续验证。业内人士指出，结构创新从论文指标走向规模化应用，往往要经受多轮检验。第一，训练与推理稳定性需要在不同数据分布与任务类型上验证，尤其是超长上下文、对齐训练与多轮推理等复杂场景。第二，将注意力引入深度维度可能带来额外显存占用、算子效率与并行策略上的挑战，需要与现有加速体系协同优化，才能真实部署中兑现“低延迟增幅”的预期。第三，不同模型家族（稠密模型、混合专家、多模态架构）对残差路径的依赖方式不同，AttnRes能否通用适配仍取决于更多公开复现与对比实验。第四，结构变化可能影响模型可控性与调参复杂度，工程团队需要沉淀可复用的配置范式与诊断工具，避免“性能收益”被调参成本抵消。前景——深度方向“可检索化”或成为下一阶段架构探索重点。近年来，模型架构的迭代多集中在注意力变体、位置编码、专家路由与推理优化等方向，而残差连接作为基础构件相对稳定。AttnRes把改造重点指向这个长期默认配置，表达出一个信号：在模型规模已大、算力约束趋紧的背景下，提升算力利用效率不仅靠更大的模型与更多数据，也需要在网络信息流动机制上做更精细的设计。若深度维度的注意力路由逐步成熟，未来可能出现更具“层间选择性”的网络形态：一上减少无效层贡献，提高有效计算占比；另一方面为模型分析、剪枝与动态计算提供新的结构抓手，推动从“堆得更深”转向“算得更聪明”。

从跟随到引领，此进展不仅回应了具体的结构瓶颈，也说明了中国科研团队在基础研究与工程实现上的积累。期待更多面向核心问题的原创探索持续涌现，为全球人工智能技术演进提供更扎实、可复用的解决方案。