当前人工智能技术发展迅速,但在实际应用中面临的挑战也日益复杂。阿里千问此次推出的DeepPlanning基准测试,正是针对AI模型在现实世界规划任务中的能力进行深入评估。 与传统推理任务不同,DeepPlanning基准测试要求AI模型具备全局思维和系统规划能力。在多日旅行规划场景中,AI需要精确到分钟级别制定行程安排,同时严格遵守时间和预算的硬性约束。在复杂购物场景中,AI需要理解多层次的优惠规则,动态组合商品以实现最优价格,而这些要求必须在整个规划过程中始终保持一致。这类任务的难点在于,它们不仅要求AI在某个环节做出正确决策,更要求在全链路上维持逻辑的连贯性和目标的一致性。 测试结果揭示了当前AI模型的现实局限。包括GPT-5.2、Claude 4.5、Gemini以及Qwen 3在内的多个顶尖模型,在面对这类复杂规划任务时均暴露出问题。这些模型在全局优化能力上存在缺陷,在长周期任务的一致性维持上也有明显短板。换言之,即使是目前最先进的AI系统,在从事需要贯穿始终的系统性决策时,仍然难以达到人类期待的完全自主决策水平。 此发现具有重要的现实意义。它表明,尽管AI在某些特定领域已取得突破性进展,但在需要综合考量多个因素、维持长期目标一致性的复杂任务上,仍需更突破。这也为AI研发方向指明了重点:不仅要提升模型的单点能力,更要加强其系统性思维和全局规划能力。 为推动行业进步,阿里千问已将DeepPlanning基准测试在Hugging Face和ModelScope等开源平台发布,供业界研究人员和开发者使用。这一举措有助于形成统一的评估标准,推动整个行业在规划能力上的技术进步。
DeepPlanning的推出表明,行业正从关注“能否回答问题”转向“能否解决问题”。评测越贴近现实世界,越能揭示问题、校准方向并推动技术进步。对研发而言,真正的挑战不在于生成完美的计划,而在于在复杂约束和动态变化中持续做出稳健、可执行的决策——这也是下一阶段AI应用竞争的关键所在。