谷歌放出了gemini embedding 2，这是谷歌第一个本地的多模态嵌入模型，把文本、图像、视频

北京时间今天凌晨，谷歌放出了 Gemini Embedding 2。这是谷歌第一个本地的多模态嵌入模型，把文本、图像、视频、音频还有文档这些东西都扔到同一个向量空间里去处理了。咱们平常说的那些生成模型，像 Gemini 3 或者 LLM，它们的重点是生产内容；而这次推出的嵌入模型主要是帮机器看懂数据的。这个模型会把这些不同的数据都转换成向量这样的数学形式，机器读起来就方便了。以前谷歌只支持文本的嵌入模型，这次全面升级了，支持 100 种语言的语义理解，还能把图像、视频、音频和文档都给搞定。不过也有限制，文本这边能看的上下文窗口最长是 8192 tokens。图片的话一次只能处理 6 张，只认 PNG 和 JPEG 格式。视频最长能塞进去 120 秒，只认 MP4 和 MOV 格式。音频这块倒是挺灵活，直接喂进去就行，不用先转文字。PDF 文件最多给看 6 页。谷歌自己也说这个模型能把那些复杂的数据处理流程给简化了，多模态应用的能力也更上一层楼。像检索增强生成（RAG）、语义搜索、情感分析或者是数据聚类这些事儿它都能做。更绝的是，它能在一个请求里同时收图像加文本这种组合输入，帮你分析这几种媒体类型之间到底有啥关系。举个例子说，在打官司找证据的时候，这玩意能帮律师快速定位到关键的东西。测试下来效果挺好的，在几百万条记录里提升了检索的准确度和召回率，连图像和视频搜索都变好了。这个新模型现在通过 Gemini API 和 Vertex AI 开放了预览版本。除了这个之外，老的 gemini-embedding-001 还是可以用的，就是专门用来处理纯文本的应用。