Abstract: Zero-Shot Learning (ZSL) is achieved via aligning the semantic relationships between the global image feature vector and the corresponding class semantic descriptions. However, using the global features to represent fine-grained images may lead to sub-optimal results since they neglect the discriminative differences of local regions. Besides, different regions contain distinct discriminative information. The important regions should contribute more to the prediction. To this end, we propose a novel stacked semantics-guided attention (S2GA) model to obtain semantic relevant features by using individual class semantic features to progressively guide the visual features to generate an attention map for weighting the importance of different local regions. Feeding both the integrated visual features and the class semantic features into a multi-class classification architecture, the proposed framework can be trained end-to-end. Extensive experimental results on CUB and NABird datasets show that the proposed approach has a consistent improvement on both fine-grained zero-shot classification and retrieval tasks.
零样本学习是通过对齐图像全局特征向量和对应的类别语义描述之间的语义关系实现的。然而,使用全局特征来表示细粒度图像可能会导致次优结果,因为这种表示忽略了局部区域的判别性差异。另外,不同区域包含了不同的判别性信息。重要的区域对预测结果贡献更大。为此,我们提出了一种新颖的堆叠语义引导注意力( S 2 G A S^2GA S2GA)模型,通过使用单独的类别语义特征来逐步引导视觉特征以生成用于加权不同局部区域的重要性的注意力图来获得语义相关特征。将集成的视觉特征和类语义特征输入到多类分类架构中,可以对提出的框架进行端到端的训练。在CUB和NABird数据集上的大量实验结果表明,所提出的方法在细粒度零样本分类和检索任务方面都有一致的改进。
亮点:使用加权局部特征来执行ZSL任务
细粒度零样问题。
如图1所示,全局特征仅捕获一些整体信息,相反,区域特征捕获与类别语义描述相关的更多局部信息。
Motivation:当试图识别未见类别的图像时,人们更多关注基于关键类别语义描述的信息区域。此外,人类通过排除不相关的视觉区域并以渐进的方式定位最相关的视觉区域来实现语义对齐。
零样本问题中,模型是如何学习已知类和未知类的关系的?
答:通过学习一个好的视觉语义映射。因为已知类和未知类共享属性空间,所以一个好的视觉语义映射,可以让在已知类上训练的模型,很好的泛化到未知类。【这个回答很牵强,没有说出模型如何学习语义偏置的。】
创新点:间接学习注意力图,通过类语义描述引导加权不同区域。
f - 局部嵌入网络
输入:局部特征 V I V_I VI
输出:?
g - 语义引导网络
输入:融合局部特征(全局) V G V_G VG + 类别语义向量 c c c
输出:?
从公式1看,fusion也是按像素乘的操作。
(1) h A = t a n h ( f ( V I ) ⊕ g ( V G ) ) h_A=tanh(f(V_I) \oplus g(V_G)) \tag {1} hA=tanh(f(VI)⊕g(VG))(1)
(2) p I = s o f t m a x ( W P h A + b P ) p_I=softmax(W_Ph_A+b_P) \tag {2} pI=softmax(WPhA+bP)(2)
h A ∈ R d × m h_A \in R^{d \times m} hA∈Rd×m是隐含空间的融合特征
V I ∈ R p × m V_I \in R^{p \times m} VI∈Rp×m 是区域特征向量, m m m个 p p p维的区域特征向量
V G ∈ R p V_G \in R^p VG∈Rp是融合特征向量
⊕ \oplus ⊕表示按像素乘法
p I ∈ R m p_I \in R_m pI∈Rm是区域特征的注意力概率
(3) f ( V I ) = h ( W I , A V I ) f(V_I)=h(W_{I, A} V_I) \tag {3} f(VI)=h(WI,AVI)(3)
(4) g ( V G ) = h ( W G , A h ( W G , S V G ) ) g(V_G)=h(W_{G, A}h(W_{G, S} V_G)) \tag {4} g(VG)=h(WG,Ah(WG,SVG))(4)
h h h是一个非线性函数(实验中使用ReLU)
W I , A ∈ R d × p W_{I, A} \in R^{d \times p} WI,A∈Rd×p, W G , S ∈ R q × p W_{G, S} \in R^{q \times p} WG,S∈Rq×p, W G , A ∈ R d × q W_{G, A} \in R^{d \times q} WG,A∈Rd×q是要学的参数,其中, q q q是类别语义空间的维度, d d d是隐含空间的维度。
(5) min L o s s G = ∣ ∣ h ( W G , S , V G ) − s ∣ ∣ \min Loss_G=|| h(W_{G, S}, V_G) - s || \tag {5} minLossG=∣∣h(WG,S,VG)−s∣∣(5)
为了将类别语义信息嵌入到注意力网络, g g g网络的第二层的输出强制靠近对应的类别语义特征。
输入:2个鸟类数据集。
类别语义特征有三种:类级属性、Word2Vec、TF-IDF。
训练时,TF-IDF维度为CUB-200维,NABirds-400维。
输出:分类准确率
其中,
第一个实验,论文方法用的是局部特征,而其他方法用的是全局特征。
GTA表示根据位置标注得到的局部特征。
DET表示通过检测方法得到的局部特征。
为了公平起见,
特征表示影响分类准确率:
The task of zero-shot retrieval is to retrieve the relevant images from unseen class set related to the specified class semantic descriptions of unseen classes.
零样本检索任务的目标是:在未见类别数据集中检索相关图像,其中该未见类别与未见类别的指定未见类别语义描述相关。
本论文贡献: