google 深夜放出了gemini embedding 2

Google深夜放出了Gemini Embedding 2这款嵌入式模型，虽然它叫嵌入，但本质上和生成模型是两回事。像Gemini 3那样搞内容创作的是后者，而前者的职责是读懂数据。它直接把文本、图片、视频、音频和文档这五种东西全塞进了同一个语义空间里，还支持100种语言。这种打通了的多模态能力意味着机器第一次能看懂画面，也能听懂声音。要想知道这两种技术的区别很简单：嵌入模型是为了算距离，生成模型是为了造内容。它把任何数据都转成高维向量，算法就能算出“这张图跟这段文字有多像”，但它自己不会写文章或拍视频。 Gemini Embedding 2的能力很强，比如文本处理最长能塞进去8192个单词；图像一次最多喂6张PNG或JPEG；视频可以支持120秒的MP4或MOV；音频不用先转文字就能直接嵌入；PDF文档的前6页也能整体处理。这种语义级检索比老式的关键词搜索好用多了。同一事件的文字、画面和声音在搜索结果里都能找到，上下文一致，也不会抓错重点。而且因为向量空间是统一的，做聚类、看情感倾向或者找异常点时就能跨模态进行了。比如你要找那些“吐槽老板”的图文视频，只要把“老板”和“吐槽”这两个词丢进去，算法就会自动把符合条件的信息聚成一堆，精准度比只用单一模态高很多。在法律诉讼这种需要查很多电子文档的场景里，它也特别有用。律师能同时在文字和图像视频里找关键证据，召回率和精准度都上去了，效率也明显提高了。现在想用这个功能可以通过Gemini API和Vertex AI两条通道来试。如果你之前只用文本处理的旧版gemini-embedding-001也还能用；要是想体验多模态新功能，直接升级就行了。总结起来就是用一套统一的向量把看图识字、听声辨义都实现了。以后无论是搞RAG还是做跨模态生成，只需要做一次嵌入就能让机器真正读懂这个世界。