多校联合提出MegaPairs自动构造海量样本 多模态图文检索迈向跨场景"通用能力"

当前人工智能发展的关键瓶颈之一是跨模态理解能力不足。传统检索系统多只能单一领域内匹配,当用户输入偏离预设场景时,性能明显下降。北京邮电大学牵头的团队通过长期观察发现,这种“专业导购困境”主要源于现有训练数据的三大缺陷:样本规模有限、标注质量不一、跨模态关联性不足。针对该问题,团队提出了新的数据构建方法论。“MegaPairs”技术体系采用三级智能筛选机制,从海量开源图像中自动识别视觉语义关联、场景模式关联和文本描述关联,再通过双阶段语言模型处理,形成包含2600余万组样本的标准化训练库。该流程无需人工标注,数据生产效率较传统方法提升两个数量级,错误率控制在0.3%以下。基于该数据集开发的“MMRet”模型表现突出:双编码器的轻量版本实现毫秒级响应,适用于实时交互;融合多模态大模型的增强版在复杂查询中准确率达92.7%,比国际同类最优水平提升11.2个百分点。测试显示,该模型不仅能识别“寻找与某款沙发风格匹配的茶几”等家居搭配需求,还能处理“推荐类似这幅山水画意境的诗歌”等跨艺术检索。行业专家认为,这项研究具备三上价值:一是开创自监督数据构建的新方式,显著降低训练成本;二是为通用型智能系统提供可行路径;三是技术可延展至医疗影像分析、工业质检等专业领域。上海交大参与实验室表示,涉及的成果已与国内头部电商平台对接,预计年内用于智能客服系统升级。

多模态检索技术的突破表明了我国人工智能基础研究的积累与创新能力。从数据生成到模型架构优化,研究团队展现了系统性解决复杂问题的能力。该成果为学术界提供了新思路,也为产业应用打下基础。随着高校与科研机构持续投入,我国在人工智能核心技术上的自主创新能力将更提升,为建设科技强国提供支撑。技术进步的目的在于服务社会,期待这些成果尽快转化为惠及民生的应用。