通用GUI智能体基座模型MAI-UI开源亮相：跨应用多步骤操作能力引关注

在全球数字化转型加速的背景下，如何让计算机系统更高效理解人类指令并自主执行复杂任务，成为人机交互领域的关键课题。

传统自动化工具往往需要精确编程且难以应对动态界面，这一技术瓶颈长期制约着办公效率的提升。

通义实验室此次发布的MAI-UI模型，通过创新性地融合多模态学习与结构化工具调用能力，实现了三项突破：其一，模型可解析不同操作系统（Windows、Android等）的图形界面元素；其二，具备任务逻辑推演功能，如根据"安排明天会议"的模糊指令，自主完成日历查询、参会人协调、议程设置等系列操作；其三，支持与地图服务、通讯软件等第三方API的智能对接，将传统需要数十次点击的操作简化为单一指令执行。

技术团队负责人介绍，该模型目前已开放2B和8B两种参数规模版本。

在ScreenSpot-Pro国际评测中，其任务完成准确率达92%，较同类技术提升15个百分点；在涉及机票预订、文档协作等实际场景的AndroidWorld测试中，平均执行效率提升40%。

这些数据表明，该技术已具备商业化应用条件。

业内专家分析认为，MAI-UI的开源将产生三重影响：首先，降低企业智能化改造成本，预计可使中小企业部署自动化流程的周期缩短60%；其次，推动无障碍技术发展，为视障群体操作电子设备提供新方案；更重要的是，其跨平台特性有望解决长期存在的"信息孤岛"问题，为国产操作系统生态建设提供技术支撑。

面对数据安全挑战，研发团队采取了双轨策略：在本地化部署版本中强化隐私保护机制，云端版本则通过联邦学习实现数据脱敏。

据透露，下一步将重点优化模型在工业控制系统等专业领域的适配能力，并与国内主流办公软件开展深度合作。

市场预测显示，该技术有望在三年内覆盖超2000万终端设备。

技术开源是推动创新共享、加速产业进步的重要路径。

通义实验室此次开放图形界面智能体基座模型,既展现了我国科技企业在前沿技术领域的自主研发实力,也体现了以开放合作促进行业共同发展的理念。

随着相关技术的持续完善与应用场景的不断拓展,智能体或将从实验室走向千家万户,成为提升数字生活品质的得力助手。

如何在技术进步中兼顾安全性、可靠性与用户体验,仍需产学研各界持续探索。