我国多模态人工智能技术取得重大突破 通义开源模型性能达国际领先水平

(问题)随着政务服务、媒体内容生产、企业知识库以及电商与文旅等场景的数据形态日趋复杂,信息检索正从单一文本检索,快速转向“文本+图片+视频+可视化文档”混合内容的统一搜索;现实中,图表、界面截图、票据文档、短视频等信息大量沉淀不同系统中,传统检索体系往往在跨模态对齐、语义理解与排序精度上存短板,导致“找得到但不够准”“检索慢、成本高”等问题突出,制约内容治理和业务决策效率。 (原因)多模态检索难点主要集中在三上:其一,不同模态的信息表达方式差异明显,难以映射到同一语义空间,跨模态相似度计算复杂;其二,海量数据中既要保证快速召回,又要保证高涉及的性排序,需要模型在效率与精度间实现工程化平衡;其三,面向全球化应用,语言多样性带来训练、评测与部署适配难题。业内普遍采用“向量召回+精排”的两阶段策略,但多模态统一建模与高质量重排序能力仍是关键瓶颈。 (影响),通义大模型发布并开源Qwen3-VL-Embedding与Qwen3-VL-Reranker模型系列,为多模态信息检索提供了一套可直接集成的工具链。官方介绍显示,两类模型均可在统一框架内处理文本、图像、可视化文档(如图表、代码、界面组件等)以及视频等输入形态,覆盖图文检索、视频文本匹配、视觉问答、多模态聚类等任务。Qwen3-VL-Embedding侧重统一表示学习,将视觉与文本信息映射到同一语义空间,便于进行跨模态相似度计算与快速检索;Qwen3-VL-Reranker则面向精细化排序,对查询与候选文档(可为任意模态组合)输出更精确的相关性评分,与召回模型协同构成“两阶段检索流程”,以提升最终结果质量。 从技术路径看,Embedding模型采用更利于并行计算与大规模编码的双塔架构,适配海量数据场景的高效向量化处理;Reranker模型采用单塔架构并通过交叉注意力机制,强化对查询与文档语义关系的深度建模,更适合在召回候选集合上进行精排。两者分工明确,有助于把检索系统的计算资源投入到“更该算的地方”,兼顾速度与准确率,降低全量精排的成本压力。 (对策)开源与工程可用性也是此次发布的重点。相关模型支持超过30种语言,面向跨地区部署与多语内容检索需求提供基础能力;同时提供灵活的向量维度选择、任务指令定制等选项,便于开发者在既有系统中快速对接。对于追求成本控制的应用侧,模型在量化后仍保持较好性能的设计,意味着在有限算力下也可实现较高质量的检索与排序。评测上,官方披露其在MMEB-v2、MMTEB等多模态与多语检索基准上表现较强,其中8B版本在多项任务上取得领先或较优成绩,显示出较好的通用性与可迁移性。 (前景)业内人士认为,面向多模态内容的统一检索正在成为数字经济时代的基础能力之一:一端连接海量内容治理与安全合规需求,另一端支撑智能客服、企业知识管理、媒体资料检索、科研文献与数据发现等应用升级。随着开源模型与工具链更成熟,未来多模态检索的竞争将更多转向数据治理质量、场景化评测体系与端到端工程落地能力。,多模态系统在隐私保护、版权合规、错误召回与偏差控制等也需要同步完善规则与技术防护,推动技术进步与应用规范相互促进。

多模态信息检索的发展方向,正从单一模态向统一框架、从商业闭源向开放生态转变。阿里巴巴通义大模型此次开源Qwen3-VL系列检索模型,既是技术创新的体现,也是产业开放合作的实践。随着越来越多的企业和开发者获得高质量的多模态检索工具,有望催生更多创新应用,推动人工智能技术更好地服务于社会和经济发展。