相关动态
ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!
2024-11-10 18:14

点击下方卡片,关注“CVer”公众号

ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐

892020048141d39774d8ebd327aa727e.png

李昊 投稿转载自:量子位(QbitAI

从一大堆图片中精准找图,有新招了!论文已经中了ECCV 2024。

北京大学袁粒课题组,联合南洋理工大学实验室,清华自动化所提出了一种新的通用检索任务通用风格检索(Style-Diversified Retrieval)

850b10975b4f3517e027234b56e8038b.png

一句话,这种检索任务要求模型面对风格多样的查询条件时,依然能精准找图。

传统图片检索主要靠文本查询,查询方法单一不说,在使用其他检索方案的性能也一般。

而论文提出的新图像检索方法,能够根据多样化的查询风格(如草图、艺术画、低分辨率图像和文本等)来检索相应图像,甚至包括组合查询(草图+文本、艺术+文本等)。

b022cb018a1aff49d2b02b739f7f707c.png

同时,模型在与其他检索基线之间的性能比较中达到SOTA(最外围蓝色

88cd03628ae634bf668dba24a560c3e7.png

目前,论文已在arXiv公开,相关代码和数据集也已开源。

当前,图像检索的一大痛点是

让检索模型具备理解多样化用户查询向量的能力

通俗点说就是,不管用户用哪种方式检索查询,最后都能命中用户想要的图像。

为了实现这一点,团队进行了两项工作

  • 构建专有的检索数据集,包括多种类型的查询图片。

  • 提出即插即用的框架,使传统检索模型也能快速具有通用检索能力。

数据集构建

针对多种查询风格的图片文本检索任务,团队生成并构建了细粒度检索数据集DSR(Diverse-Style Retrieval Dataset)。

展开来说,数据集包括10,000张自然图片以及对应的四种检索风格(文本、草图、低分辨率、卡通艺术)。

93fc3119beca566e1462a8243f043889.png

其中的草图标注由FSCOCO数据集提供,卡通艺术图片和低分辨率图像由AnimateDiff生成。

同时,团队也采用ImageNet-X作为大尺寸粗粒度的多风格检索数据集。

ImageNet-X包括100万张带有各种风格标注的自然图片,相较于DSR,ImageNet-X数据集的图片更加简单,便于检索。

提出FreestyleRet框架

概括而言,FreestyleRet框架通过将图片风格提取并注入,有效解决了当前图片检索模型无法兼容不同类型的检索向量的问题。

在构建FreestyleRet框架时,团队主要考虑到两个问题

  • 如何有效地理解不同风格的查询向量的语义信息。

  • 如何有效利用现有的图文检索模型,实现优秀的扩展能力。

围绕这两个核心问题,团队设计三个模块来组成FreestyleRet框架

(1)基于格拉姆矩阵的风格提取模块用于显式提取未知查询向量的风格表征(2风格空间构建模块,通过对风格表征聚类从而构建检索的风格空间,并将聚类中心作为风格的一致性表征(3风格启发的提示微调模块,通过对检索模型的Transformer layer进行风格初始化的插值,实现对现有检索模型的多风格查询能力扩展。

ec4c06cfe0d744370ada7e750aa83a8b.png

风格提取与风格空间的构建

格拉姆矩阵被验证为有效的图像风格提取方案,在本论文中团队采用基于格拉姆矩阵的风格提取模块对不同类型的查询向量进行风格提取。

团队采用冻结的VGG轻量化网络对查询向量进行表征编码,并选取浅层卷积表征作为风格提取的基特征,具体公式如下

d28e7c72d01f970515f702b589f8faac.png

在得到查询向量对应的风格表征集合后,团队为查询向量集合构建整体的风格空间

具体来说,采用K-Means聚类算法,迭代式的计算四种不同风格的查询向量集合对应的聚类中心,然后再对每个风格表征计算其所属的风格中心,并根据新的风格表征集合重新调整聚类中心的位置。

当聚类中心位置不再发生变化即为迭代完毕,公式如下

b22d36aa2df734f351ba721ebf7e5dff.png264068b050a955cc5252b4daf6d73daa.png

在风格空间中,团队将不同查询向量风格对应的不同聚类中心作为风格空间的基向量。

而在推理过程中面对未知风格的查询向量,风格空间将计算查询向量在基向量上的投影,通过对基向量投影与基向量的加权求和,风格空间实现对未知风格的量化。

高效风格注入的提示微调模块

在图像文本检索领域,基于Transformer结构的ALBEF, CLIP, BLIP等基础检索模型受到广泛的使用,很多下游工作采用了这些基础检索模型的编码器模块

为了让FreestyleRet框架能够便捷且高效的适配这些基础检索模型,团队采用风格表征初始化的token对基础编码器的Transformer结构进行提示微调

具体来说,在encoder layer的每层都插入使用量化风格表征初始化的可学习token,从而实现风格向编码器注入的流程。

6c4a702f0619d9162c78e15d135c77fa.png

在定量实验角度,团队分析了基于FreestyleRet架构的BLIP和CLIP模型在DSR数据集以及ImageNet-X数据集的Recall@1, Recall@5性能。

实验证明,面对多种风格的查询向量时,FreestyleRet框架可以显著增强现有检索模型的泛化能力具有2-4%的提升

5a98b0e02f0d0b9762eed0d504835b06.png

而团队也进一步验证FreestyleRet框架对于多个不同风格的查询向量共同输入的性能共同输入的查询向量可以进一步提升模型的检索精度。

c28b5a52813db5a293642c6942c71102.png

通过对特征分布进行可视化,团队发现使用FreestyleRet结构的基础检索模型能够有效分离查询向量中的风格信息与语义信息,并实现语义角度的高维空间聚类。

df8e04080347eee3f698217f8ea04d14.png

团队也对实际的检索推理流程进行了示例的可视化,以验证模型的泛化性。

2868dd2d78884a938214d0b1f2b7fdd7.png

总之,模型在5种不同类型的检索向量上都取得了良好效果,而且还在多种检索向量共同检索的子任务上表现了良好的扩展性。

更多详情欢迎查阅原论文。

论文:https://arxiv.org/abs/2312.02428代码、数据集:https://github.com/CuriseJia/FreeStyleRet

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT!赶紧学起来

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

Mamba、多模态和扩散模型交流群成立

 
 

    以上就是本篇文章【ECCV 2024 | 北大提出图像检索新方法!支持输入草图/艺术画/低分辨率!】的全部内容了,欢迎阅览 ! 文章地址:http://gzhdwind.xhstdz.com/news/4844.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://gzhdwind.xhstdz.com/mobile/ , 查看更多   
最新文章
解析国内AI写作平台:创新背后的挑战与突破
一、国内 AI 写作平台兴起近年来,随着人工智能技术的飞速发展,国内 AI 写作平台如雨后春笋般涌现。这些平台利用深度学习、自然
解析百度的绿萝算法怎样识别买卖链接
  作为站长,大家都知道,百度于2013年2月20日推出了最新的搜索引擎算法,起名叫绿萝,公告称这个新算法主要是打击买卖链接的
揭秘刷神马SEO排名秘籍,轻松提升网站搜索地位!
深度解析刷神马SEO排名真相与策略,分享实用技巧,助力网站高效提升排名,轻松占领搜索引擎前列!随着互联网的快速发展,SEO(搜
亚马逊运营必备实用工具
常常看见有卖家小伙伴提问利用什么做数据分析、用什么选品等话题。这里强烈建议各位亚马逊卖家以及准备入驻亚马逊卖家的朋友收藏
如何打造一个高效的营销型企业网站,营销型企业网站的核心特点是什么
打造高效营销型企业网站,需关注用户体验、SEO优化、内容质量及数据分析。核心特点为:用户导向、易用性高、转化路径明确。如何
佛山专业SEO优化助力企业电商营销新飞跃
佛山商品SEO优化公司,凭借专业技术和丰富经验,为企业提供全方位互联网营销解决方案。通过精准关键词优化、内容营销、数据分析
ks秒单关注(快速秒单关注,提升用户转化率)
KS秒单关注是一种快速秒单关注的方法,旨在提升用户的转化率。这种方法通过一系列的策略和技巧,能够快速吸引用户的关注,并使他
密码技术应用员理论知识题及答案.docVIP
PAGEPAGE1密码技术应用员理论知识题及答案单选题1.密码系统试运行报告中,记录的每个问题均应具备唯一标识,其作用是()。A、描
外链自动增加:全面解析和战略规划198
引言外链是搜索引擎优化 (SEO) 至关重要的组成部分,可以提高网站在搜索结果页面 (SERP) 中的排名。然而,有时网站可能会经历外
OpenAI 与马斯克“恩怨”再升级!公开历史邮件,揭秘“控制权”争夺战
OpenAI 与马斯克的法律战已持续数月,核心争议点在于 OpenAI 是否背离了其最初的非营利使命,即让 AI 研究成果惠及所有人。上个
相关文章