中国科技企业发布新一代智能模型路线图 核心技术突破引国际业界关注

当前全球大模型竞争已从参数规模的扩张转向底层架构的优化;在这个背景下,月之暗面Kimi创始人杨植麟于3月18日在英伟达年度开发者大会GTC 2026上,以《How We Scaled Kimi K2.5》为题,系统呈现了Kimi的技术演进逻辑与发展方向。 一、核心问题:旧标准成为规模化瓶颈 杨植麟直指行业痛点:当前大模型训练依赖的技术标准多为八九年前甚至十年前的产物。随着算力规模持续扩大,这些标准正逐渐成为制约模型智能上限的结构性瓶颈。 2014年广泛采用的Adam优化器、2017年确立的全注意力机制,以及已有十年历史的残差连接设计,在超大规模训练中都暴露出局限性。杨植麟认为,单纯依靠资源堆砌已难以为继,必须对这些底层基石进行系统性重构。 二、根本原因:规模化训练对效率与稳定性提出新要求 随着模型参数量迈向万亿级别,计算效率、长程记忆管理与多智能体协作能力成为决定模型表现的关键。杨植麟将Kimi的演进逻辑归纳为三个维度:Token效率、长上下文处理能力和智能体集群的动态调度能力。只有在这三个维度上同时寻求规模效应,才能实现模型性能的指数级提升。 Kimi团队在大规模实验中发现,将Muon优化器扩展至万亿参数规模时,出现了Logits爆炸导致模型发散的稳定性问题。这一挑战促使团队进行深度工程攻关,而非简单回退。 三、解决方案:三项底层技术重构 针对上述问题,Kimi团队在优化器、注意力机制与残差连接三个方向提出了原创性解决方案,并向开源社区开放。 在优化器层面,团队研发了MuonClip优化器,通过引入Newton-Schulz迭代并结合QK-Clip机制,解决了Logits爆炸问题,同时实现了相较于AdamW两倍的计算效率提升。 在注意力机制层面,团队推出KimiLinear混合线性注意力方案,打破了"所有层必须使用全注意力"的惯例。在128K乃至百万级超长上下文场景中,解码速度提升了五至六倍,且在不同长度任务中保持稳定表现。 在残差连接层面,团队引入AttentionResiduals方案,将固定加法累加替换为Softmax注意力聚合,解决了隐藏状态随网络深度膨胀的问题,使每一层能根据输入内容有选择地整合历史信息。这一工作引发了前OpenAI联合创始人卡帕西的公开回应,xAI创始人马斯克也表示赞赏。 此外,杨植麟分享了跨模态研究发现:在视觉与文本联合预训练中,视觉强化学习能显著反哺文本性能。消融实验显示,经过视觉强化学习训练后,模型在纯文本基准测试上的表现提升约2.1%。 四、深层影响:研究范式的转变 杨植麟指出,十年前的研究受制于算力资源,难以通过不同规模的实验系统验证新想法。如今,随着算力储备充分积累与"缩放阶梯"方法论的成熟,研究者已能开展严谨的规模化对照实验。这意味着大模型领域的技术创新正从经验驱动向实验驱动演进。 在智能体集群方向,杨植麟预判未来的智能形态将从单一智能体向动态生成的集群结构演化。Kimi K2.5引入的Orchestrator机制能将复杂长任务拆解至数十个子智能体并行处理。为防止单点依赖导致的串行塌缩,团队设计了并行强化学习奖励函数,激励模型真正习得任务分解与并行执行的能力。

从重构优化器到再造注意力与残差连接,再到探索多智能体并行协作,Kimi的路线图发出一个清晰信号:下一阶段竞争焦点将更多聚焦于"底座能力"的长期主义与工程化耐力;坚持开源、加强验证、提升效率与可靠性,不仅关乎单个模型的能力上限,也将影响产业生态的创新速度与应用边界。在新的扩展周期里,谁能率先把底层瓶颈转化为体系化优势,谁就更可能在未来的智能化浪潮中占据主动。