阿里发布千问旗舰推理模型Qwen3-Max-Thinking 国产大模型高阶推理能力再迎跃升

全球人工智能竞争正进入更高水平的比拼阶段，高阶推理能力已成为衡量大模型的重要指标；阿里巴巴推出的Qwen3-Max-Thinking模型，正是在该背景下推出的关键进展。该模型总参数量超过万亿级别，预训练数据量达36T Tokens，并通过大规模强化学习进行优化，反映了国产大模型在基础能力上的继续提升。从技术创新角度看，该模型的两项核心改进更贴近真实应用场景。其一是自适应工具调用能力。以往大模型往往需要用户手动指定调用搜索引擎、代码解释器等工具，而Qwen3-Max-Thinking能够自行判断并自动调用：在实时政策咨询中可主动检索最新信息，在工程计算中可自动启用代码验证工具。这不仅降低了模型“幻觉”带来的风险，也让其工作方式更接近专业流程。目前该功能已在千问Chat平台上线，普通用户可免费体验。其二是测试时扩展技术的应用。该技术通过在推理阶段分配额外计算资源提升效果。不同于传统模型在复杂问题上容易产生重复思路、造成算力浪费，该方案引入“经验提取”式反思机制，减少并行推理中的冗余计算，让模型在相同算力下更集中处理尚未解决的关键难点。数据显示，模型在GPQA科学知识测试中的得分从90.3提升至92.8，在LiveCodeBench编程测试中从88.0升至91.4，提升幅度清晰可见。从性能表现看，Qwen3-Max-Thinking在多项权威基准测试中表现突出。在被业界称为“人类最后的测试”的HLE工具调用基准中，该模型以58.3分明显领先OpenAI的GPT-5.2-Thinking（45.5分）和谷歌Gemini 3 Pro（45.8分）。在IMO级数学推理测试中获得91.5分的最高成绩，其预览版本还曾在AIME 25与HMMT 25两项国际数学竞赛中取得满分。这些结果表明，国产大模型在高阶推理上已具备与国际顶尖模型同台竞争的能力。从应用生态看，阿里为不同用户群体提供了多种使用方式。普通用户可通过千问PC端和网页端免费体验，企业用户可通过阿里云百炼平台获取API服务，用于商业化落地。这种开放的使用路径有助于推动模型在各行业的应用，促进产业智能化进程。从战略投入看，阿里对人工智能的投入持续加码。阿里CEO吴泳铭表示，公司正推进三年3800亿元的AI基础设施建设计划，并将继续追加投入。该投入规模与谷歌、Meta、亚马逊等海外科技巨头的AI资本开支处于同一量级，体现出国内科技企业在AI竞争中的投入力度与持续性。

人工智能已成为新一轮科技革命的重要动力，其发展水平直接影响国家竞争力。此次突破不仅表明了我国科技企业的研发能力，也为关键技术的自主可控提供了可参考的实践路径。面向未来，如何在持续提升技术能力的同时推动与产业场景的深度结合，将成为下一阶段需要重点回答的问题。