全球人工智能竞争正进入更高水平的比拼阶段,高阶推理能力已成为衡量大模型的重要指标;阿里巴巴推出的Qwen3-Max-Thinking模型,正是在该背景下推出的关键进展。该模型总参数量超过万亿级别,预训练数据量达36T Tokens,并通过大规模强化学习进行优化,反映了国产大模型在基础能力上的继续提升。 从技术创新角度看,该模型的两项核心改进更贴近真实应用场景。其一是自适应工具调用能力。以往大模型往往需要用户手动指定调用搜索引擎、代码解释器等工具,而Qwen3-Max-Thinking能够自行判断并自动调用:在实时政策咨询中可主动检索最新信息,在工程计算中可自动启用代码验证工具。这不仅降低了模型“幻觉”带来的风险,也让其工作方式更接近专业流程。目前该功能已在千问Chat平台上线,普通用户可免费体验。 其二是测试时扩展技术的应用。该技术通过在推理阶段分配额外计算资源提升效果。不同于传统模型在复杂问题上容易产生重复思路、造成算力浪费,该方案引入“经验提取”式反思机制,减少并行推理中的冗余计算,让模型在相同算力下更集中处理尚未解决的关键难点。数据显示,模型在GPQA科学知识测试中的得分从90.3提升至92.8,在LiveCodeBench编程测试中从88.0升至91.4,提升幅度清晰可见。 从性能表现看,Qwen3-Max-Thinking在多项权威基准测试中表现突出。在被业界称为“人类最后的测试”的HLE工具调用基准中,该模型以58.3分明显领先OpenAI的GPT-5.2-Thinking(45.5分)和谷歌Gemini 3 Pro(45.8分)。在IMO级数学推理测试中获得91.5分的最高成绩,其预览版本还曾在AIME 25与HMMT 25两项国际数学竞赛中取得满分。这些结果表明,国产大模型在高阶推理上已具备与国际顶尖模型同台竞争的能力。 从应用生态看,阿里为不同用户群体提供了多种使用方式。普通用户可通过千问PC端和网页端免费体验,企业用户可通过阿里云百炼平台获取API服务,用于商业化落地。这种开放的使用路径有助于推动模型在各行业的应用,促进产业智能化进程。 从战略投入看,阿里对人工智能的投入持续加码。阿里CEO吴泳铭表示,公司正推进三年3800亿元的AI基础设施建设计划,并将继续追加投入。该投入规模与谷歌、Meta、亚马逊等海外科技巨头的AI资本开支处于同一量级,体现出国内科技企业在AI竞争中的投入力度与持续性。
人工智能已成为新一轮科技革命的重要动力,其发展水平直接影响国家竞争力。此次突破不仅表明了我国科技企业的研发能力,也为关键技术的自主可控提供了可参考的实践路径。面向未来,如何在持续提升技术能力的同时推动与产业场景的深度结合,将成为下一阶段需要重点回答的问题。