国产智能模型迭代加速技术突破助推产业升级

国产AI大模型竞争春节前夕出现新变化；随着多家厂商密集发布新产品，上海企业MiniMax推出新一代文本模型M2.5，正式加入这场市场角逐。与过去主要比拼参数规模和榜单排名不同，M2.5把竞争焦点放在Agent技术的实际应用能力上，显示国产大模型正在进入更强调落地的阶段。在编程能力上，M2.5体现出明显优势。权威评测数据显示，该模型SWE-Bench Verified上的得分达到80.2%，在Multi-SWE-Bench上的得分为51.3%，相比上一代有大幅提升。更关键的是，M2.5在多语言复杂环境中的表现已超过国际同类产品，达到行业领先水平。这也反映出模型在代码理解与生成能力上的更突破。，M2.5具备“原生Spec能力”，即在正式编码前能够主动拆解架构并完成功能规划，工作方式更接近软件架构师的思路。这意味着它不只会写代码，也能对复杂系统做结构化理解与方案设计，有助于提升研发效率。在工具调用和搜索能力上，M2.5同样表现突出。模型可自动处理复杂任务，在BrowseComp、Wide Search等多项Agent任务中，以更低的轮次消耗取得更好的效果；相较上一代，整体性能提升约20%，达到行业第一梯队。这表明其在理解用户意图、规划步骤、调用外部工具等环节已具备较强的可用性。办公场景的能力提升也是M2.5的亮点之一。在Word、PPT、Excel等常见办公工具，以及金融建模等高阶应用中，模型能力均有明显提高。在GDPval-MM测评框架中，M2.5相较主流产品的平均胜率达到59.0%，意味着在不少实际办公任务里，它的完成效果已能与其他主流产品竞争。 MiniMax内部的实际应用也为M2.5的落地提供了佐证。在真实业务场景中，该模型已能自主完成约30%的整体任务，覆盖研发、产品、销售、人力资源、财务等多个职能部门，且比例仍在上升。尤其在编程领域，M2.5生成的代码已占新提交代码的80%，显示其在生产环节中的稳定性与可用性。除了性能指标，M2.5在推理速度和成本控制上也有进展。M2.5-lightning版本支持每秒100个Token以上的输出速度，约为主流模型的两倍。成本上，输入价格约为每百万Token 0.3美元，输出价格约为每百万Token 2.4美元。按每秒输出100个Token计算，连续运行一小时成本约1美元；按每秒50个Token计算，成本约0.3美元。按此测算，理论上1万美元可支撑4个Agent连续工作一年，为Agent规模化部署提供了更清晰的成本空间。从技术迭代看，M2.5的快速进步折射出国产大模型研发节奏的加快。过去108天内，MiniMax完成了从M2到M2.1再到M2.5的三代迭代，SWE-Bench Verified成绩从69.4提升至80.2，提升幅度在同业中较为突出。其背后，主要依托大规模Agent强化学习技术的应用。 MiniMax自研的Forge框架通过解耦训练引擎与Agent，实现对不同Agent脚手架和工具的泛化优化。同时借助异步调度与树状合并策略，框架实现约40倍训练加速，显著提高迭代效率。在算法层面，团队采用CISPO优化与过程奖励机制，缓解长上下文场景中的信用分配问题，并将“任务真实耗时”纳入奖励函数，在效果与响应速度之间寻求平衡。从市场竞争角度看，M2.5的发布也表明了国产大模型竞争重心的变化。过去更看重模型规模、参数数量等基础指标，如今更关注实际应用能力、投入产出、用户体验等务实维度。此转向反映产业逐步成熟，也预示后续竞争将更集中在解决真实问题的能力上。

大模型竞争正从“谁更能说”转向“谁更能做、做得更稳、成本更可控”。在密集迭代的窗口期，围绕Agent能力、推理效率与组织级落地的数据披露，正在为观察产业走向提供新的参考坐标。未来一段时间，技术优势能否沉淀为可复制的业务流程、可量化的效率提升与可持续的治理体系，将决定这场竞逐最终落到哪里。

国产智能模型迭代加速 技术突破助推产业升级

国产智能模型迭代加速技术突破助推产业升级