国产智能模型迭代加速 技术突破助推产业升级

国产AI大模型竞争春节前夕出现新变化;随着多家厂商密集发布新产品,上海企业MiniMax推出新一代文本模型M2.5,正式加入这场市场角逐。与过去主要比拼参数规模和榜单排名不同,M2.5把竞争焦点放在Agent技术的实际应用能力上,显示国产大模型正在进入更强调落地的阶段。 在编程能力上,M2.5体现出明显优势。权威评测数据显示,该模型SWE-Bench Verified上的得分达到80.2%,在Multi-SWE-Bench上的得分为51.3%,相比上一代有大幅提升。更关键的是,M2.5在多语言复杂环境中的表现已超过国际同类产品,达到行业领先水平。这也反映出模型在代码理解与生成能力上的更突破。 ,M2.5具备“原生Spec能力”,即在正式编码前能够主动拆解架构并完成功能规划,工作方式更接近软件架构师的思路。这意味着它不只会写代码,也能对复杂系统做结构化理解与方案设计,有助于提升研发效率。 在工具调用和搜索能力上,M2.5同样表现突出。模型可自动处理复杂任务,在BrowseComp、Wide Search等多项Agent任务中,以更低的轮次消耗取得更好的效果;相较上一代,整体性能提升约20%,达到行业第一梯队。这表明其在理解用户意图、规划步骤、调用外部工具等环节已具备较强的可用性。 办公场景的能力提升也是M2.5的亮点之一。在Word、PPT、Excel等常见办公工具,以及金融建模等高阶应用中,模型能力均有明显提高。在GDPval-MM测评框架中,M2.5相较主流产品的平均胜率达到59.0%,意味着在不少实际办公任务里,它的完成效果已能与其他主流产品竞争。 MiniMax内部的实际应用也为M2.5的落地提供了佐证。在真实业务场景中,该模型已能自主完成约30%的整体任务,覆盖研发、产品、销售、人力资源、财务等多个职能部门,且比例仍在上升。尤其在编程领域,M2.5生成的代码已占新提交代码的80%,显示其在生产环节中的稳定性与可用性。 除了性能指标,M2.5在推理速度和成本控制上也有进展。M2.5-lightning版本支持每秒100个Token以上的输出速度,约为主流模型的两倍。成本上,输入价格约为每百万Token 0.3美元,输出价格约为每百万Token 2.4美元。按每秒输出100个Token计算,连续运行一小时成本约1美元;按每秒50个Token计算,成本约0.3美元。按此测算,理论上1万美元可支撑4个Agent连续工作一年,为Agent规模化部署提供了更清晰的成本空间。 从技术迭代看,M2.5的快速进步折射出国产大模型研发节奏的加快。过去108天内,MiniMax完成了从M2到M2.1再到M2.5的三代迭代,SWE-Bench Verified成绩从69.4提升至80.2,提升幅度在同业中较为突出。其背后,主要依托大规模Agent强化学习技术的应用。 MiniMax自研的Forge框架通过解耦训练引擎与Agent,实现对不同Agent脚手架和工具的泛化优化。同时借助异步调度与树状合并策略,框架实现约40倍训练加速,显著提高迭代效率。在算法层面,团队采用CISPO优化与过程奖励机制,缓解长上下文场景中的信用分配问题,并将“任务真实耗时”纳入奖励函数,在效果与响应速度之间寻求平衡。 从市场竞争角度看,M2.5的发布也表明了国产大模型竞争重心的变化。过去更看重模型规模、参数数量等基础指标,如今更关注实际应用能力、投入产出、用户体验等务实维度。此转向反映产业逐步成熟,也预示后续竞争将更集中在解决真实问题的能力上。

大模型竞争正从“谁更能说”转向“谁更能做、做得更稳、成本更可控”。在密集迭代的窗口期,围绕Agent能力、推理效率与组织级落地的数据披露,正在为观察产业走向提供新的参考坐标。未来一段时间,技术优势能否沉淀为可复制的业务流程、可量化的效率提升与可持续的治理体系,将决定这场竞逐最终落到哪里。