谷歌推出原生多模态嵌入模型gemini embedding 2

谷歌宣布推出首款原生多模态嵌入模型Gemini Embedding 2。这次由DeepMind负责开发的新模型能给文本、图像、视频、音频还有文档统一处理，支持超过100种语言。这不仅在不少基准测试中领先，还新增了语音处理能力，大幅降低了多模态应用开发的门槛。3月10日，这个产品正式发布，说明谷歌把AI嵌入技术带到了全模态融合的新阶段。 Gemini Embedding 2能把五类媒体形式都给映射到一个嵌入空间里，这给企业用户带来了不少好处，特别是在构建多模态检索增强生成（RAG）、语义搜索和数据分类系统方面。现在大家可以通过Gemini API或者Vertex AI来接入这个模型，开发者可以马上用起来。这个模型的能力其实挺强的，支持从文本扩展到五种媒体形式。比如文本一次可以处理8192个token；图像每次请求能搞定6张PNG或JPEG格式的图；视频能直接处理120秒的MP4或MOV文件；音频不用转文字就能直接生成嵌入向量；还有最多6页的PDF文档也可以直接嵌入。谷歌还用了以前用的Matryoshka表示学习技术（MRL），让向量维度可以动态压缩。这样就能根据不同的应用场景选3072、1536或者768这三个维度，既保证精度又能省下成本。在性能上，谷歌说Gemini Embedding 2在文本、图像和视频任务上都比主流竞品强。这次还把原生语音处理能力给加上了，不用中间的语音转文字步骤就能直接用音频数据。这些新技术已经被谷歌用在自家不少产品里了，还有些合作伙伴已经开始用它做实际应用了。