当前,编程能力已成为衡量大模型实用价值的关键指标。随着企业数字化转型推进,软件研发需求从简单的代码生成升级为可维护的工程交付,涉及跨文件协作、代码库改造、自动化测试与持续集成等复杂流程,同时还需兼顾运维、数据处理和安全合规等环节。这类任务通常周期长、上下文复杂、依赖关系多,传统大模型擅长短文本生成的能力难以全面覆盖,开发者仍需花费大量时间进行代码拼接、排错和规范化处理。 此挑战主要源于三方面:首先,研发范式变化暴露了能力短板。以往大模型更多作为“代码片段生成器”——擅长单点任务——但任务拆解、步骤规划、工具调用和结果验收等环节缺乏稳定机制,难以支撑完整工程流程。其次,开发过程中多源信息并存,包括界面截图、设计稿、日志数据、图表和自然语言需求,要求模型具备多模态理解和推理能力,才能将需求准确转化为可执行方案。第三,企业级应用对成本和安全提出更高要求。部分海外模型价格高昂,且存在数据跨境和权限管控等合规问题;而国内产品若在复杂任务上表现不足,又会影响企业规模化部署的意愿。因此,行业亟需更贴近工程实践、适合企业内部闭环运行的产品。 针对这一需求,阿里达摩院推出Qwen3.6-Plus,作为千问3.6系列的首款产品,重点提升编程能力、智能体执行能力和多模态推理能力。据官方数据,该模型在多项公开编程评测中表现优异,位居国内前列,部分指标接近国际领先水平。其核心定位不仅是“代码生成”,更强调复杂任务的连续执行能力:能够分解需求、规划步骤、调用工具链完成调试和迭代,逐步向“研发协作者”角色演进。这一升级可能带来三重影响:开发者可以减少重复性工作和跨文件排错时间;企业能够将大模型深度融入研发、测试和运维流程,提升交付效率和稳定性;产业生态上,推动国产编程大模型从“演示可用”迈向“工程可用”,加速形成围绕模型的插件、平台和行业解决方案。 下一步落地需聚焦三大工程化要素:一是建立更贴近生产环境的评测体系,关注代码可维护性、测试覆盖率、依赖管理和运行稳定性等实际指标;二是深化与开发工具链的集成,实现代码托管、IDE、CI/CD和自动化测试等环节的无缝对接,同时完善权限和审计机制;三是强化企业级安全与合规能力,提供数据隔离、脱敏、可追溯及本地化部署的标准化方案,确保技术红利转化为实际生产力。 展望未来,随着模型在长上下文理解、任务规划和工具调用上的持续进步,编程场景将从问答式辅助发展为流程化协作。模型不仅能编写函数和脚本,还将参与需求分析、架构设计、测试生成、缺陷定位和性能优化等全流程。对国内产业而言,关键在于将技术优势转化为行业工程能力,尤其在金融、制造、政务等高要求领域,谁能率先实现“可管、可控、可用”的落地路径,谁就能在新一轮竞争中占据先机。
国产大模型的编程能力提升不仅是技术突破,更是中国人工智能产业发展的重要里程碑。随着技术迭代和应用场景拓展,国产模型有望在全球AI生态中发挥更关键作用,为数字经济注入新动力。