Google深夜放出了Gemini Embedding 2这款嵌入式模型,虽然它叫嵌入,但本质上和生成模型是两回事。像Gemini 3那样搞内容创作的是后者,而前者的职责是读懂数据。它直接把文本、图片、视频、音频和文档这五种东西全塞进了同一个语义空间里,还支持100种语言。这种打通了的多模态能力意味着机器第一次能看懂画面,也能听懂声音。 要想知道这两种技术的区别很简单:嵌入模型是为了算距离,生成模型是为了造内容。它把任何数据都转成高维向量,算法就能算出“这张图跟这段文字有多像”,但它自己不会写文章或拍视频。 Gemini Embedding 2的能力很强,比如文本处理最长能塞进去8192个单词;图像一次最多喂6张PNG或JPEG;视频可以支持120秒的MP4或MOV;音频不用先转文字就能直接嵌入;PDF文档的前6页也能整体处理。 这种语义级检索比老式的关键词搜索好用多了。同一事件的文字、画面和声音在搜索结果里都能找到,上下文一致,也不会抓错重点。而且因为向量空间是统一的,做聚类、看情感倾向或者找异常点时就能跨模态进行了。 比如你要找那些“吐槽老板”的图文视频,只要把“老板”和“吐槽”这两个词丢进去,算法就会自动把符合条件的信息聚成一堆,精准度比只用单一模态高很多。 在法律诉讼这种需要查很多电子文档的场景里,它也特别有用。律师能同时在文字和图像视频里找关键证据,召回率和精准度都上去了,效率也明显提高了。 现在想用这个功能可以通过Gemini API和Vertex AI两条通道来试。如果你之前只用文本处理的旧版gemini-embedding-001也还能用;要是想体验多模态新功能,直接升级就行了。 总结起来就是用一套统一的向量把看图识字、听声辨义都实现了。以后无论是搞RAG还是做跨模态生成,只需要做一次嵌入就能让机器真正读懂这个世界。