[pdf]
[arXiv]
零样本学习现在非常流行,因为它在不需要额外训练数据的情况下扩展识别模型的潜力。零样本学习一般是通过关联类别及其语义信息(比如属性)来实现的。然而,我们相信这种模式提供的潜力还没有被充分利用。在本文中,我们提出通过一组关系来利用属性空间结构。我们设计了一些目标函数来保持嵌入空间的语义关系,这样就把语义性引入到了嵌入空间。通过在5个基准数据集上的大量实验评价,我们证明了将语义性引入到嵌入空间对零样本学习是有益处的。在标准的零样本设置和更实际的广义的零样本设置下,我们提出的方法都超过了最好的算法。我们也证明了提出的方法对于在没有类别的属性信息的情况下对图片进行近似语义推理是有用的。
嵌入空间是什么?
答:实现分类的空间,具体指——视觉空间,语义空间,或者预定义的空间,隐空间等等
怎么将语义性引入到嵌入空间?
答:语义性指的是语义空间的结构,通过语义关系来保持这种结构。本文定义的语义关系是类别间的语义关系,有的定义的是属性之间的语义关系。
一些方法把零样本看做一个排名问题。但是,由于固定的间隔和相容性函数的无界性质,排名会导致一些来自属性的可用语义结构的丢失。
一些方法使用嵌入来解决零样本。这里,选择嵌入空间是非常重要的。
我们认为两件事情对零样本识别很重要:
三类:
ZSL形式化表达:
已知样本及其类嵌入,已知类别,
X = { x i T } i = 1 N ∈ R N × d X={\{x_i^T\}}_{i=1}^N \in R^{N \times d} X={xiT}i=1N∈RN×d,
Y = { y i T } i = 1 N ∈ R N × a Y={\{y_i^T\}}_{i=1}^N \in R^{N \times a} Y={yiT}i=1N∈RN×a,
C s = { 1 , 2 , … , c s } C_s = {\{1, 2, \dots, c_s\}} Cs={1,2,…,cs}
给定一个新的样本 x u x^u xu,可能属于的未见类别 C u = { c s + 1 , c s + 2 , … , c s + c u } C_u = {\{c_s+1, c_s+2, \dots, c_s+c_u\}} Cu={cs+1,cs+2,…,cs+cu}.
零样本的目标是在不用未见类样本训练模型的情况下,预测 x u x^u xu的正确类别。
给定一组类别,对于一个参考类,将其分成三组:相同、语义相似、语义不相似。
语义关系的相似性度量为 δ m n = s ( y m , y n ) \delta_{mn}=s(y_m, y_n) δmn=s(ym,yn),本文采用余弦相似性。
(1) s ( p , q ) = < p , q > ∣ ∣ p ∣ ∣ 2 ∣ ∣ q ∣ ∣ 2 s(p, q) = \frac {<p, q>}{||p||_2||q||_2} \tag{1} s(p,q)=∣∣p∣∣2∣∣q∣∣2<p,q>(1)
三种关系
基于上面的定义,我们希望将类别嵌入映射到视觉空间,这样映射后的类别嵌入和视觉特征之间的语义关系就能够反映他们对应类别之间的关系。本文将类别嵌入映射到视觉空间受[34]和[44]激发,文章表明使用视觉空间或者其他中间空间而不是语义空间作为嵌入空间可以缓解枢纽点问题。 因此,我们使用视觉空间作为嵌入空间。
编码解码多层感知机:
几个符号:
视觉特征三元组: ( x i , y j , z k ) (x_i, y_j, z_k) (xi,yj,zk)
类别嵌入三元组: y i , y j , y k y_i, y_j, y_k yi,yj,yk
参考类是 y r y_r yr
则有语义关系: δ i r = 1 , τ ≤ δ j r < 1 , δ k r < τ \delta_{ir}=1, \tau \leq \delta_{jr}<1, \delta_{kr} < \tau δir=1,τ≤δjr<1,δkr<τ
3.3给出了快速采样三元组的方法。
相同和不相似类别的目标函数
(2) O 1 = min θ f − s ( f ( y r ; θ f ) , x i ) + ( τ − δ k r ) ⋅ s ( f ( y r ; θ f ) , x k ) \mathcal O_1 = \min\limits_{\theta_f} -s(f(y_r; \theta_f), x_i) + (\tau - \delta_{kr}) \cdot s(f(y_r; \theta_f), x_k) \tag{2} O1=θfmin−s(f(yr;θf),xi)+(τ−δkr)⋅s(f(yr;θf),xk)(2)
第一项满足相同类的需求,旨在最大化 f ( y r ; θ f ) f(y_r; \theta_f) f(yr;θf)和 x i x_i xi的语义相似性。理想情况下,应该等于1。
第二项旨在最小化 f ( y r ; θ f ) f(y_r; \theta_f) f(yr;θf)和 x k x_k xk的语义相似性。 τ − δ k r \tau - \delta_{kr} τ−δkr是适应性缩放项。
相似类别的目标函数
(3) O 2 = min θ f [ τ − s ( f ( y r ; θ f ) , x j ) ] + + [ s ( f ( y r ; θ f ) , x j ) − δ j r ] + \mathcal O_2 = \min\limits_{\theta_f} [\tau - s(f(y_r; \theta_f), x_j)]_+ + [ s(f(y_r; \theta_f), x_j) - \delta_{jr}]_+ \tag{3} O2=θfmin[τ−s(f(yr;θf),xj)]++[s(f(yr;θf),xj)−δjr]+(3)
其中, [ z ] + = m a x { 0 , z } [z]_+ = max{\{0, z\}} [z]+=max{0,z}。注意:只有一项会被触发。上面的约束只针对相似类别。不相似类别因为在大多数应用中数量足够少可以被忽略。
重建Loss
受启发于[16],添加一个额外的重建项对零样本识别是有益的。
(4) O 3 = min θ f , θ g ∣ ∣ y r − y ^ r ∣ ∣ 2 2 \mathcal O_3 = \min\limits_{\theta_f, \theta_g}||y_r - \hat y_r||_2^2 \tag{4} O3=θf,θgmin∣∣yr−y^r∣∣22(4)
总体目标函数
(5) O = 1 ∣ B ∣ ∑ B O 1 + λ 1 O 2 + λ 3 O 3 \mathcal O = \frac{1}{|\mathcal B|} \sum\limits_{\mathcal B} \mathcal O_1 + \lambda_1 \mathcal O_2 + \lambda_3 \mathcal O_3 \tag{5} O=∣B∣1B∑O1+λ1O2+λ3O3(5)
给定一个测试样本 x u x_u xu,我们推断它的类别如下:
(6) c ∗ = arg max c s ( f ( y r c ; θ f ) , x u ) c^* = \arg \max\limits_c s(f(y_r^c; \theta_f), x^u) \tag{6} c∗=argcmaxs(f(yrc;θf),xu)(6)
其中, y r c y_r^c yrc在传统ZSL指未见类,在广义ZSL下指已见类和未见类。
Our method is similar to the hard negative mining approach for triplet based learning algorithms [6, 33, 35].
近似语义推理,类似检索任务
绿色表示语义相似,红色表示语义不相似。
[6] M. Bucher, S. Herbin, and F. Jurie. Hard negative mining for metric learning based zero-shot classification. In ECCV Workshops, 2016.
[33] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.
[35] E. Simo-Serra, E. Trulls, L. Ferraz, I. Kokkinos, P. Fua, and F. Moreno-Noguer. Discriminative learning of deep convolutional feature point descriptors. In ICCV, 2015.
[16] E. Kodirov, T. Xiang, and S. Gong. Semantic autoencoder for zero-shot learning. In CVPR, 2017.
[34] Y. Shigeto, I. Suzuki, K. Hara, M. Shimbo, and Y. Matsumoto. Ridge regression, hubness, and zero-shot learning. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2015.
[40] Y. Xian, C. H. Lampert, B. Schiele, and Z. Akata. Zero-shot learning-a comprehensive evaluation of the good, the bad and the ugly. arXiv preprint arXiv:1707.00600, 2017.
[44] L. Zhang, T. Xiang, and S. Gong. Learning a deep embedding model for zero-shot learning. CVPR, 2017.