谷歌推出原生多模态嵌入模型gemini embedding 2

谷歌宣布推出首款原生多模态嵌入模型Gemini Embedding 2。这次由DeepMind负责开发的新模型能给文本、图像、视频、音频还有文档统一处理,支持超过100种语言。这不仅在不少基准测试中领先,还新增了语音处理能力,大幅降低了多模态应用开发的门槛。3月10日,这个产品正式发布,说明谷歌把AI嵌入技术带到了全模态融合的新阶段。 Gemini Embedding 2能把五类媒体形式都给映射到一个嵌入空间里,这给企业用户带来了不少好处,特别是在构建多模态检索增强生成(RAG)、语义搜索和数据分类系统方面。现在大家可以通过Gemini API或者Vertex AI来接入这个模型,开发者可以马上用起来。 这个模型的能力其实挺强的,支持从文本扩展到五种媒体形式。比如文本一次可以处理8192个token;图像每次请求能搞定6张PNG或JPEG格式的图;视频能直接处理120秒的MP4或MOV文件;音频不用转文字就能直接生成嵌入向量;还有最多6页的PDF文档也可以直接嵌入。 谷歌还用了以前用的Matryoshka表示学习技术(MRL),让向量维度可以动态压缩。这样就能根据不同的应用场景选3072、1536或者768这三个维度,既保证精度又能省下成本。 在性能上,谷歌说Gemini Embedding 2在文本、图像和视频任务上都比主流竞品强。这次还把原生语音处理能力给加上了,不用中间的语音转文字步骤就能直接用音频数据。这些新技术已经被谷歌用在自家不少产品里了,还有些合作伙伴已经开始用它做实际应用了。