【零样本草图检索】Generalising Fine-Grained Sketch-Based Image Retrieval

Abstract

虽然细粒度草图检索获得令人满意的结果,但需要实例级别的sketch/image pair标注信息,而且学习到的特征空间是domain-specific的,不能很好的推广到unseen classes。本文将 generalisation for FG-SBIR 看作 domain generalisation 问题。提出用无监督学习的方法来建模通用的sketch视觉特性字典,然后可以使用它来学习sketch/image特征。unseen classes的domain adaption问题可以通过先将sketch用通用字典表示,然后更新这个embedding来解决。

Motivation

现有的FG-SBIR方法的泛化能力不好,主要是domain-shift问题。例如,在car上训练的模型,对于bicycle的性能就不好,因为缺少车把和座垫的“经验”。对于这些out-of-sample数据,基于triplet loss训练的网络可能不会再达到sketch/image pair距离近,反之距离远的效果。有两种缓解domain-shift的方法: Unsupervised domain adaptation(用unlabelled unseen classes来调整模型使得更适应unseen classes); domain generalisation(训练一个足够健壮的模型能够立即泛化到target domain data)。

为了解决cross-category FG-SBIR generalisation (CC-FG-SBIR)问题,提出一种新的框架,可以根据给定的查询sketch自动调整特征提取器。这确保了在测试时能够产生好的特征表示,即使是在处理来自unseen classes的sketch/image时也是如此。其关键思想是学习一个无监督embedding网络,能够将任意的sketch映射到一个通用sketch特征字典中。因此,该网络可以用来为任意sketch提供 a latent visual trait
descriptor (VTD)。然后,这个descriptor用于调整sketch/image特征提取器,使它们更适应于当前查询sketch对应的类别。

总的来说,我们的框架可以被认为是 domain generalisation的解决方案,它通过 domain-descriptor来调整模型,但是这个descriptor是根据单个数据(sketch instance-specific)来估计的;而且这个descriptor也可以视为潜在领域发现问题(latent-domain discovery)。

我们的方法解决了CC-FG-SBIR任务的Domain Generalisation问题,通过通用sketch特性字典得到查询sketch的embedding,这个embedding就是new domain的descriptor,而sketch/image特征提取器的某些部分(η(φ(s)))是从这个new domain中生成的。

Note:此方法与先前的ZS-SBIR方法的不同是,VTD能够表示抽象的视觉特征(这个特征是类别共享的,如图,descriptor 2和140分别表示“complicate-dense”和“simple-sparse”,descriptor 207 和 249 分别表示 “leftwards full-body view” 和 “frontal face view”),而且VTD是数据驱动学习得到的而不是由语义信息指导的,这样对unseen classes的泛化能力更强。
【零样本草图检索】Generalising Fine-Grained Sketch-Based Image Retrieval_第1张图片

Method

首先,通用sketch特性字典是K*M维的矩阵(初始化时,每行是从高斯分布采样),unsupervised embedding network通过自编码器将sketch映射到D的某一行。一张sketch s通过CNN encoder得到E(s),经过全连接映射到K维,根据概率最大的索引找到Ds
在这里插入图片描述
为了确保每个descriptor对应于一个视觉上有意义的特征,通过decoder R( de-convolutional layers)重建 s
【零样本草图检索】Generalising Fine-Grained Sketch-Based Image Retrieval_第2张图片
由于descriptors总量K=300远小于sketch的数量,重构误差会很大(因为cluster没有包含足够的信息来精确地重构每个sketch),所以引入 skip connection来提升decoder。
【零样本草图检索】Generalising Fine-Grained Sketch-Based Image Retrieval_第3张图片
至此,该方法很难优化,因为argmax操作不可微分,而且将重构损失最小化的一个简单方法是输出一个或几个恒定的one-hot向量ph,特别是在训练的早期阶段,这将使模型永远陷入局部极小值。为了缓解这个问题,我们使用了一个基于重参数化(reparameterisation)的低方差梯度估计方法。(Hard Assignment via Gumbel-Softmax和Soft Assignment via Entropy Constraint)
于是,可以得到目标函数:
在这里插入图片描述
unsupervised embedding network得到每张sketch的 visual trait descriptor (VTD)(也就是φ(s)),用来调整triplet ranking network(TRN)(也就是ψ(·)),ψ(·)用来学习具有泛化能力的sketch/image特征表示。F(·)是CNN特征提取器。
在这里插入图片描述
η(φ(s))可以看作是F(·)的soft attention mask。
【零样本草图检索】Generalising Fine-Grained Sketch-Based Image Retrieval_第4张图片
所以,训练的目标函数为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
During testing, for a query sketch s, we sample η(φ(s)) ten times to calculate distance for each sketch-photo gallery pair and take the smallest as the final measure.

你可能感兴趣的:(Zero-Shot,Sketch)