[2019CVPR论文笔记]Doodle to Search Practical Zero-Shot Sketch-based Image Retrieval

摘要

文章地址:http[https://arxiv.org/pdf/1904.03451v1.pdf]
在本文中,我们研究了基于零样本的草图图像检索(ZS-SBIR)的问题,其中人类草图被用作查询以从不可见的类别中检索照片。我们通过提出一种新颖的ZS-SBIR场景来进一步推进现有技术,该场景代表了其实际应用中的一步。新设置独特地认识到实际ZS-SBIR的两个重要但经常被忽视的挑战,(1)业余草图和照片之间的巨大领域差距(ii)向大规模检索迈进的必要性。我们首先为社区贡献了一个新的ZS-SBIR数据集,QuickDrawExtended,包含330,000个草图和204,000张照片,涵盖110个类别。有目的地采用高度抽象的业余人体草图来最大化域间隙,而不是现有数据集中包含的那些通常是半照片级的。然后,我们制定了一个ZS-SBIR框架,将草图和照片共同建模成一个共同的嵌入空间。

介绍

论文中第一个贡献提供了一种数据集,具有以下特点:首先,数据集需要模仿草图和照片之间的真实抽象差距。 这些业余草图与目前通过现有数据集研究的草图非常不同,现有数据集要么太逼真,要么通过回忆参考图像产生。
其次,为了在业余草图和照片之间学习可靠的跨域嵌入,数据集来自具有各种绘图技能的用户所绘画的各种草图样本。
但是这个数据集和它模仿的现实场景,实质上使ZS-SBIR任务更加困难。 这导致第二个贡献是一个新颖的跨域零样本的嵌入模型。我们的基础网络是一个视觉化的三元组排名模型。我们提出两种新技术来帮助学习更好的跨域传输模型。第一,域解除策略旨在通过强制网络学习嵌入未知域来弥合域之间的差距,其中梯度反转层(GRL)鼓励编码提取相互的信息从草图和照片。第二,一种新颖的语义损失,以确保语义信息保留在获得的嵌入中。 通过仅在语义解码器的输入处对负样本应用GRL目的是帮助编码器网络分离相似类的语义信息。

数据集

QuickDraw-ExtendedDataset:主要的限制是:(i)业余素描和照片之间的巨大领域差距,以及(ii)走向大规模检索的必要性。(草图和图像之间没有直接的一对一的对应关系,即草图可以是业余绘图风格中生成的图像的粗略概念抽象,避免模棱两可和重叠的情况,以及大的类内变动)
Sketchy-Extended Dataset:它对ZS-SBIR任务的主要限制是其细粒度的性质,即每个草图具有相应的照片,该照片在绘制时用作参考。 因此,参与者倾向于以逼真的方式绘制对象,产生类似于真实边缘图的草图。 这实质上缩小了草图和照片之间的跨域差距。
TUBerlin-Extended Dataset:它是为草图分类和识别基准测试而创建的数据集。
[2019CVPR论文笔记]Doodle to Search Practical Zero-Shot Sketch-based Image Retrieval_第1张图片
数据集的定性比较。 可以理解草图中不同的抽象层次。 从顶部到底部,图中还显示了草图和图像之间对齐的减少。

网络框架

网络框架主要分为两个部分(下图所示):1.编码器将输入图像转换为对应的嵌入空间。2.成本函数指导学习过程为嵌入提供所需的性能。
ZS-SBIR体系结构,它将草图和照片映射到一个共同的嵌入空间中。
它结合了三个损失:
(i)三重损失,以学习排名指标;( 这种损失的目的是减少嵌入草图和图像之间的距离,如果它们属于相同的类并且在不同的类中增加)
(ii)域损失,使用GRLRd将图像和草图合并到一个不可区分的空间; (为了确保获得的嵌入属于同一空间, 这种损失的基本思想是获得一个与域无关的嵌入,该嵌入不包含足够的信息来决定它是来自草图还是照片)
(iii)语义损失,强制嵌入包含语义信息通过重构词语义。 在负样本中(GRL Rs=0.5用负样本来促进类似语义类别之间的差异),它还有助于通过GRL区分语义相似的类。
框架的目的是学习两个嵌入函数φ:X→RD和ψ:Y→RD,它们分别将照片和草图域映射到一个共同的嵌入空间。能够通过所选距离函数提供排序的图像列表。
[2019CVPR论文笔记]Doodle to Search Practical Zero-Shot Sketch-based Image Retrieval_第2张图片
三重损失:如果它们属于相同的类减少之间的距离,属于不同的类话则增加距离。其中的元参数λd,它在训练期间从0(仅训练分类器但不更新编码器网络)到1。 在我们的例子中,它根据迭代i定义为zλ(i)=(i-5)/ 20。
域损失:为了确保获得的嵌入属于同一空间,将元参数λs保持在所有训练中的固定值,特别是将其设置为0.5。
语义损失:“Giraffe”代表天鹅的单词到词向量,然后与重构的语义(Semantic Reconstruction)进行余弦距离计算。

损失函数

1.三重损失
在这里插入图片描述
2.域损失
在这里插入图片描述
其中
在这里插入图片描述
0代表草图,1代表照片。
3.语义损失
[2019CVPR论文笔记]Doodle to Search Practical Zero-Shot Sketch-based Image Retrieval_第3张图片
其中
在这里插入图片描述
所以总的损失函数为
在这里插入图片描述

实验结果

[2019CVPR论文笔记]Doodle to Search Practical Zero-Shot Sketch-based Image Retrieval_第4张图片
与现有技术的最新技术进行比较,本文的方法有明显的效果。

总结

本文代表了实际ZS-SBIR任务的第一步。以前关于此任务的工作并未解决在转向无约束检索时出现的一些重要挑战,并未解决业余草图和照片之间的大域差距问题。在这种情况下,为了克服缺乏适当的数据,贡献了一个专门设计的大型ZS-SBIR数据集,QuickDraw-Extended。然后,提出了一种新颖的ZS-SBIR系统,它结合了视觉和语义信息,以生成图像嵌入。

你可能感兴趣的:(CVPR2019,图像检索,图像检索,CVPR2019,深度学习,few-shot)