在全球数字化转型加速的背景下,如何让计算机系统更高效理解人类指令并自主执行复杂任务,成为人机交互领域的关键课题。
传统自动化工具往往需要精确编程且难以应对动态界面,这一技术瓶颈长期制约着办公效率的提升。
通义实验室此次发布的MAI-UI模型,通过创新性地融合多模态学习与结构化工具调用能力,实现了三项突破:其一,模型可解析不同操作系统(Windows、Android等)的图形界面元素;其二,具备任务逻辑推演功能,如根据"安排明天会议"的模糊指令,自主完成日历查询、参会人协调、议程设置等系列操作;其三,支持与地图服务、通讯软件等第三方API的智能对接,将传统需要数十次点击的操作简化为单一指令执行。
技术团队负责人介绍,该模型目前已开放2B和8B两种参数规模版本。
在ScreenSpot-Pro国际评测中,其任务完成准确率达92%,较同类技术提升15个百分点;在涉及机票预订、文档协作等实际场景的AndroidWorld测试中,平均执行效率提升40%。
这些数据表明,该技术已具备商业化应用条件。
业内专家分析认为,MAI-UI的开源将产生三重影响:首先,降低企业智能化改造成本,预计可使中小企业部署自动化流程的周期缩短60%;其次,推动无障碍技术发展,为视障群体操作电子设备提供新方案;更重要的是,其跨平台特性有望解决长期存在的"信息孤岛"问题,为国产操作系统生态建设提供技术支撑。
面对数据安全挑战,研发团队采取了双轨策略:在本地化部署版本中强化隐私保护机制,云端版本则通过联邦学习实现数据脱敏。
据透露,下一步将重点优化模型在工业控制系统等专业领域的适配能力,并与国内主流办公软件开展深度合作。
市场预测显示,该技术有望在三年内覆盖超2000万终端设备。
技术开源是推动创新共享、加速产业进步的重要路径。
通义实验室此次开放图形界面智能体基座模型,既展现了我国科技企业在前沿技术领域的自主研发实力,也体现了以开放合作促进行业共同发展的理念。
随着相关技术的持续完善与应用场景的不断拓展,智能体或将从实验室走向千家万户,成为提升数字生活品质的得力助手。
如何在技术进步中兼顾安全性、可靠性与用户体验,仍需产学研各界持续探索。