零样本学习(ZSL)旨在通过一些可见类的可用的训练数据,来识别另一些未见类的目标。现有解决方案集中于通过在可见和未见类之间共享的中间语义嵌入(例如,属性)来探索知识的迁移。在本文中,我们提出了一种基于矩阵三分解和流形正则化的新型投影框架。 具体来说,我们通过在语义嵌入矩阵和类标签矩阵的指导下分解视觉特征矩阵来学习语义嵌入投影。 通过在视觉数据和语义嵌入上另外引入流形正则化,所学习的投影可以有效地捕获属于视觉空间和语义空间中的几何流形结构。 为了避免投影域漂移问题,我们通过利用测试时流形结构来设计有效的预测方案。 对四个基准数据集的大量实验表明,我们的方法明显优于最先进的技术,分别为识别和检索任务产生了 7.4 % 和 31.9 % \mathbf {7.4%和31.9%} 7.4%和31.9%的平均提升率。
思考:
1. “语义嵌入投影”、“语义嵌入矩阵”分别指什么?
“语义嵌入投影”,指从类别标签空间到属性空间的映射,类别和属性都有语义信息,而属性更具体而已,简单理解就是从“马”这个类映射到“腿,头,身体,食草”等属性。
“语义嵌入矩阵”,指每个类对应的一个m维的语义嵌入向量(就是一个属性向量)。
2. “利用测试时流形结构”是指?
3. 训练时,是否用到未见类的信息?
传统的视觉识别系统通常需要大量的人工标注的训练数据,以实现良好的分类准确性,通常每个类要学习数千张图像[8,40]。 由于待识别的可用图像和类别的数量不断增加,所以为每个可能的类别标注图像变得不可行。 例如,在对细粒度对象类[9](如动物种类或消费品品牌)进行分类时,这个问题本质上是严重的,因为这些类别的标记图像数量可能远远不足以直接构建高质量的分类器。
零样本学习(ZSL)[19,17]一直被认为是解决上述问题的关键。 ZSL的目的是识别未见类的新实例(例如,图像),其中训练可用的只有可见类的标注实例。 在没有未见类标注实例的情况下,通过迁移从可见类中学习的知识来获得用于未见类的分类器。 这通常是通过探索语义嵌入空间来实现的,其中可见类和未见类都可以关联到这个空间。大多数现有工作用的空间是基于属性[11,17,27,41]和word2vec表示[12,23,24,33]的。 在这样的空间中,每个类名可以由基于预定义属性本体的高维二进制/连续向量或通过自然语言处理的大量未注释文本语料库来表示。
给定一个语义嵌入空间,未未见类与可见类之间的语义关系可以用它们的语义嵌入向量之间的距离来度量。 然而,由于测试图像是由视觉特征向量表示的,因此不能通过用未见类的语义嵌入向量直接测量来获得它与未见类的相似性。为了解决这个问题,现有的几种ZSL方法[1,12,33,31,42,6,21]依赖于从可见类的标记图像中直接学习视觉特征空间和语义嵌入空间之间的投影函数。 然后,可以通过经由投影函数映射视觉特征并且测量它与语义嵌入空间中的未见类别的相似性来执行对测试图像的预测。
然而,这些基于投影的方法仍然存在几个主要缺点。
第一,在学习投影函数时,没有很好地探索属于在视觉特征空间和语义嵌入空间中的内在/本征流形结构。
第二,这些方法遭受投影域偏移问题[13,16,37],即从可见类数据中学习的视觉特征映射(投影函数)可能不能很好地泛化到未见类数据。 主要原因是在投影空间中未见的类的测试数据分布可能与基于可见类的训练数据学习到的投影所获得的估计不同。
第三,现有的基于投影的方法在广义ZSL设置下仍然与理想性能存在较大差距[7],在这种设置中测试数据来自可见类和未见类,并且需要将它们(这些测试数据)预测到两种类型的联合标签空间中。
在本文中,我们通过开发一种新方法,称为矩阵三分解与流形正则化(MFMR),来解决现有基于投影的ZSL方法中的上述问题,如图1所示。具体来说,在训练阶段,MFMR学习一个投影矩阵,通过将训练实例的视觉特征矩阵分解为三个矩阵,其中两个已经明确地给出,即语义嵌入矩阵和可见类的类标签矩阵。该约束确保MFMR学习到的投影矩阵利用由两个观察到的矩阵提供的先验监督信息可以有效地构建从视觉特征空间到语义嵌入空间的映射。同时,两个流形正则项对视觉特征空间和属性空间的流形结构进行了建模,也被集成到分解过程中,这样就增强了学习到的投影矩阵保持训练数据在两个空间中的几何结构的能力。在测试阶段,MFMR通过有效的预测方案直接估计所有测试实例的类标签矩阵。特别地,给定观察到的投影矩阵(在训练阶段学习的)和未见类的语义嵌入矩阵,MFMR对测试实例的视觉特征矩阵执行类似的矩阵分解过程,同时进一步利用其中的流形结构,从而克服了投影域偏移问题。
我们的工作主要贡献有三方面:
一、我们提出了一种新的ZSL方法,称为MFMR,利用了的矩阵三分解框架,和在视觉特征空间和语义嵌入空间上的流形正则化。
二、我们为MFMR开发了一种有效的预测方案,以联合估计所有测试实例的类标签,其中测试数据的有益流形结构被充分利用以提高性能。
三、我们在四个基准ZSL数据集上进行了大量实验,验证了MFMR在零样本识别和检索任务上优于最先进的方法。在广义ZSL设置下的额外评估中,还验证了MFMR在平衡可见和未见类别的预测方面的鲁棒性。
本文的其余部分安排如下。在下一节中,我们将简要回顾一下ZSL的相关方法。然后,我们介绍我们的方法,接着是实验结果,和对四个基准数据集的综合分析。最后,我们得出结论。
现有的ZSL方法在如何将知识从可见类迁移到未见类方面有所不同。给定类的语义嵌入,大多数现有方法被分组为基于相似性的方法和基于投影的方法。基于相似性的方法[30,25]依赖于为视觉特征空间中的可见类学习n路离散分类器,然后使用它来计算未见类的图像与可见类的图像之间的视觉相似性。相比之下,基于投影的方法首先将测试实例的视觉特征映射到语义空间,然后通过各种语义相关性度量来确定未见类和测试实例的相关性[17,1,14,42]。具体来说,有了类的语义嵌入,Akata等[1]提出了一个模型,它隐含地将视觉特征和语义嵌入投影到一个公共空间上,在这个空间中可以测量任何一对之间的相容性。在[31]中,提出了一种更简单有效的线性模型,其提出对正则项进行有原则的选择,以在相同的原理下获得更好的结果。我们的工作也是通过在语义嵌入和类标签矩阵的指导下分解视觉特征矩阵来寻求有效的投影。分解是基于矩阵三分解完成的,与这些方法不同。和最近的强调对内在流形结构建模之重要性的工作[38,20,29,14,37,6]一样,我们的工作集成了两个流形正则项来解释视觉特征空间和语义嵌入空间潜在的几何信息。总的来说,我们的工作凭经验可以高效地显示更准确的预测。
最近Fu等人 [13]提出基于投影的方法中可能存在的投影域偏移问题,他们提出了一种直推式多视图嵌入框架来解决这个问题。 Kodirov等人 [16],Zhang和Saligrama [44]进一步研究了这个问题,并提出通过无监督域自适应方案和结构化预测方案分别在学习过程中利用未见类的数据结构。我们的方法还挖掘了测试时的数据信息以提高性能。但是,我们应该指出,与上述方法相比,我们的方法在训练过程中无法访问未见类数据,因此对于ZSL的问题设定更为实用。
为了评估ZSL的模型,大多数现有的ZSL方法[26,39,15,22,43,6]都在适应Lampert等人的开创性工作中的设置[17],并且重点是在测试阶段没有看到可见类的实例的情况下区分未见类的实例。这种设置可能是不现实的,因为在现实世界中,在测试阶段遇到可见和未见类的实例是很常见的。最近,Chao等人 [7]提出了一种通用的ZSL设置,其中ZSL的模型需要在联合标签空间中预测可见和未见类的测试数据。这种广义的设置能够提供更客观的评估。我们在两种设置下评估我们的方法,结果显示我们的方法在识别来自可见和未见类的测试数据之间进行权衡的稳健性。
图1. 提出的ZSL的MFMR框架。注意,白色块是观察到的矩阵,而灰色块是要学习的未知矩阵。在训练阶段,我们通过语义嵌入矩阵 A s A_s As和可见类的类标签矩阵 Y s Y_s Ys以及隐含投影矩阵对可见实例的视觉特征矩阵 X s X_s Xs进行分解。在测试阶段,我们使用学到的投影U和未见类的语义嵌入矩阵 A u A_u Au,通过分解 X u X_u Xu来推断测试实例的标签矩阵 Y u Y_u Yu。 隐含变量受到流形正则化的约束,这与[31]中的工作有本质区别。
设S表示 c s c_s cs个可见类, U U U表示 c u c_u cu个未见类。这两组标签是不相交的,即 S ∩ U = ∅ S∩U=∅ S∩U=∅。**每个类由一个m维的语义嵌入(例如,属性)向量表示。**可见类和未见类的语义嵌入可以用矩阵 A s = { a i s } i = 1 c s A_s = \{{a_i^s}\} _ {i = 1}^{c_s} As={ais}i=1cs和 A u = { a i u } j = 1 c u A_u = \{{a_i^u} \}_{j=1}^{c_u} Au={aiu}j=1cu表示,其中向量 a i a_i ai和 a j a_j aj分别是第 i i i个可见类和第 j j j个未见类的向量。假设我们给定一个训练集 D S = { ( x i s , y i s ) } i = 1 n s D_S = \{{(x_i^s, y_i^s)} \}_{i=1}^{n_s} DS={(xis,yis)}i=1ns,其中对于第 i i i张标注图像, x i s x_i^s xis表示其 d d d维特征向量, y i s y_i^s yis是一个独热类标签向量,其中标签属于集合 S S S。此外,还提供一个测试集 D U = { ( x j u , y j u ) } j = 1 n u D_U = \{{(x_j^u, y_j^u)} \}_{j=1}^{n_u} DU={(xju,yju)}j=1nu,其中 x j u x_j^u xju也是一个 d d d维特征向量,是从第 j j j个未标记的测试图像中提取的, y j u y_j^u yju是待预测的类标签向量,标签属于集合 U U U。为简单起见,我们将训练集和测试集的索引表示为 Γ = s , u \Gamma = {s,u} Γ=s,u。
通常,ZSL本质上是一个两阶段过程:训练和测试。在训练阶段,从 X s X_s Xs, A s A_s As和 Y s Y_s Ys中学习可见类的知识。然后在测试阶段,将学到的知识迁移到未见类,给定 X u X_u Xu和 A u A_u Au来预测 Y u Y_u Yu。
模型学的知识,就是隐含映射矩阵U,是特征空间到属性空间的映射关系。
我们的方法MFMR的主要思想如图1所示。在训练阶段,我们在矩阵三分解框架下,利用流形正则项,从只来自可见类的、标注的训练实例中学习一个投影。 在测试阶段,通过利用属于其中的流形结构来联合预测测试实例的类标签。
由于投影构建了视觉特征空间和语义嵌入空间之间的映射,这进一步架接了从可见类到未见类的知识转移,我们假设一个有效的投影需要1)最大化训练实例和测试实例的视觉特征空间的经验似然; 2)保持视觉特征空间和语义嵌入空间隐含的几何流形结构。
为了满足第一个要求,在MFMR中,我们提出学习一个投影,作为训练和测试数据的共同隐含因子。 为达到这一目标,我们为可见类的标注训练实例的视觉特征矩阵Xs定制了矩阵三分解[10]框架。 分解程序执行了特征实例联合聚类来估计Xs的经验似然,产生了三个矩阵,将估计误差最小化为
min U , V s ∣ ∣ X s − U A s V s T ∣ ∣ 2 , (1) \mathbf {\rm \min\limits_{U, V_s} || X_s - UA_sV_s^T ||^2}, \tag{1} U,Vsmin∣∣Xs−UAsVsT∣∣2,(1)
其中 ∥ ⋅ ∥ 2 ∥·∥^2 ∥⋅∥2是矩阵的Frobenius范数。在公式1中, U = { u i } i = 1 m ∈ R d × m U = \{{u_i}\}_{i =1}^m∈R^{d×m} U={ui}i=1m∈Rd×m就是要学的投影,每个 u i u_i ui代表每个语义嵌入的视觉特征簇。 V s = { v i } i = 1 c s ∈ R n s × c s V_s = \{{vi}\}_{i =1}^{c_s}∈R^{n_s×c_s} Vs={vi}i=1cs∈Rns×cs,每个 v i v_i vi表示每个可见类的实例簇(即,具有相似语义的实例将位于同一簇中)。这两个矩阵分别是矩阵 X s X_s Xs在行向量(特征)和列向量(实例)上联合聚类的结果。第三个矩阵,即可见类的语义嵌入As,被引入以关联 U U U和 V s V_s Vs。使用观察到的 A s A_s As作为桥梁的优点是可以隐式地构建视觉特征和可见类之间的映射。类似地,当使用未见类的语义嵌入时,可以完成测试阶段的映射。值得注意的是,利用来自可见类的训练实例的类标签矩阵 Y s Y_s Ys,可以直接获得可见类的实例簇。因此,合理的策略是强制执行 V s = Y s V_s = Y_s Vs=Ys以确保从 X s X_s Xs分解的实例簇与从 Y s Y_s Ys获得的实例簇一致。
思考:
1. 经验似然是什么?
2. 联合聚类的过程?得到的簇有什么特点?
流形的部分,没有看懂,如果将来有机会,再补。
Specifically, for x j u x_j^u xju, its projection in the semantic embedding space be computed as U − 1 x j u U^{−1}x_j^u U−1xju, which is then compared with the semantic embedding vectors { a u l } l = 1 c u \{{a_u^l}\}^{c_u}_{l=1} {aul}l=1cu of unseen classes by cosine distance measure.
具体来说, x j u x_j^u xju在语义空间中的投影可以用式子 U − 1 x j u U^{−1}x_j^u U−1xju来计算,然后用它和未见类别的语义嵌入向量通过余弦距离度量来作比较。
在本文中,我们描述了一个简单而有效的ZSL框架,该框架能够在标准的ZSL数据集上超越当前最先进的方法。 主要思想是利用具有流形正则项的矩阵三分解的复杂技术来减轻先前基于投影的ZSL方法的局限性。 此外,开发了一种有效的预测方案来利用测试数据的流形结构来解释测试时域漂移的风险。 大量的评估验证了我们的框架对传统ZSL问题的有效性,并显示了其对广义ZSL问题的鲁棒性。
动机: 细粒度分类(动物种类、消费品品牌)
方法: 提出了一种基于投影的框架,带流形约束的矩阵三分解。
1)矩阵分解:学习特征空间到语义空间的映射关系
2)流形正则化:缓解了投影域漂移的问题。
【注】分别对可见类,未见类数据进行了流形正则化
【亮点】通过引入视觉数据和语义嵌入上的流形正则项,来保持视觉空间和流形空间的几何流形结构。
问题:实验中有两种设定,传统设定和广义的设定。在广义设定中,所有的测试数据一起预测标签。那么,这一组测试数据有多少?可不可以增量的看模型的效果?