找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

刚发的Gemini Embedding 2,算是把多模态检索这事重新做了一遍。

[复制链接]

8

主题

1

回帖

26

积分

新手上路

积分
26
发表于 2 小时前 来自手机 | 显示全部楼层 |阅读模式
刚发的Gemini Embedding 2,算是把多模态检索这事重新做了一遍。

以前的模型处理视频音频,得先拆开处理——视频抽帧、语音转文字、图片单独过一遍模型,最后再拼起来。信息损耗不说,流程也啰嗦。

这个新模型的特点是:一个向量空间,通吃文字、图片、视频、音频。你不用再管中间那些转换步骤,直接把原始素材丢进去就行。

举个实际场景。监控视频里找“穿红衣服的人拿走了快递”,以前得先识别红衣服、识别快递、识别动作,存成文字再搜。现在直接拿整段视频去匹配,搜的是特征本身,不是文字标签。

再看研报和合同里的图表。以前PDF里的饼图折线图是RAG的噩梦,得OCR文字再单独过图模型。现在直接把整个页面扔进去,问“去年Q3研发占比多少”,模型能自己看懂图里的数字。

还有个玩法:用户上传一张跑车照片,想听这车的引擎声。因为音频和图片在同一个向量空间,用照片的向量可以直接匹配到声音特征。
#
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-13 20:21 , Processed in 0.148076 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表