北京时间今天凌晨,谷歌放出了 Gemini Embedding 2。这是谷歌第一个本地的多模态嵌入模型,把文本、图像、视频、音频还有文档这些东西都扔到同一个向量空间里去处理了。咱们平常说的那些生成模型,像 Gemini 3 或者 LLM,它们的重点是生产内容;而这次推出的嵌入模型主要是帮机器看懂数据的。这个模型会把这些不同的数据都转换成向量这样的数学形式,机器读起来就方便了。以前谷歌只支持文本的嵌入模型,这次全面升级了,支持 100 种语言的语义理解,还能把图像、视频、音频和文档都给搞定。 不过也有限制,文本这边能看的上下文窗口最长是 8192 tokens。图片的话一次只能处理 6 张,只认 PNG 和 JPEG 格式。视频最长能塞进去 120 秒,只认 MP4 和 MOV 格式。音频这块倒是挺灵活,直接喂进去就行,不用先转文字。PDF 文件最多给看 6 页。 谷歌自己也说这个模型能把那些复杂的数据处理流程给简化了,多模态应用的能力也更上一层楼。像检索增强生成(RAG)、语义搜索、情感分析或者是数据聚类这些事儿它都能做。更绝的是,它能在一个请求里同时收图像加文本这种组合输入,帮你分析这几种媒体类型之间到底有啥关系。举个例子说,在打官司找证据的时候,这玩意能帮律师快速定位到关键的东西。测试下来效果挺好的,在几百万条记录里提升了检索的准确度和召回率,连图像和视频搜索都变好了。 这个新模型现在通过 Gemini API 和 Vertex AI 开放了预览版本。除了这个之外,老的 gemini-embedding-001 还是可以用的,就是专门用来处理纯文本的应用。