【论文笔记】Learning a Deep Embedding Model for Zero-Shot Learning

论文详细信息

题目:Learning a Deep Embedding Model for Zero-Shot Learning

作者:Li Zhang / Tao Xiang / Shaogang Gong

期刊/会议:Computer Vision and Pattern Recognition

时间:Jul 2017

领域:visual and language model

关键词: multiple semantic modalities

1.Why?

目前已有工作

现有的嵌入模型大致可分为两组:

(1)通过从视觉特征空间回归到具有预先计算特征的语义空间或深度神经网咯回归来学习映射函数。对于这些嵌入模型,语义空间就是嵌入空间;

(2)通过一个公共的中间空间隐式地学习视觉空间和语义空间之间的关系,同样可以使用神经网咯或不使用。因此嵌入空间既不是视觉特征空间,也不是语义空间。

作者通过实验表明使用视觉特征空间作为嵌入空间具有本质上的优势,因为它能够环境hubness问题。

现在存在的问题及原因?

(1)由于嵌入空间是一个高维空间,所以很容易出现hubness problem。该问题是指:在高维空间中,一部分测试集的类别可能会成为很多数据点的K近邻(KNN),但其类别之间却没什么关系。当我们使用语义空间(semantic space)作为嵌入空间时,需要将视觉特征映射到语义空间中,这样会使得空间发生萎缩,点与点之间更加稠密,从而加重hubness problem

(2)大部分最先进的ZSL模型使用深度CNN特征来表示视觉特征;利用预训练的CNN模型提取特征。它们的主要区别在于如何学习给定特征的嵌入空间。因此它们不是端到端的模型。

2.What?

切入点是什么?

作者认为ZSL深度嵌入模型成功的关键是嵌入空间的选择。现有的模型,无论是深度还是非深度,都会选择语义空间或中间嵌入空间作为嵌入空间。然而,由于嵌入空间是高维的,并且要在那里进行NN搜索,Hubbness问题是不可避免的,也就是说,一些看不见的类原型将成为许多数据点的NNs,即hubs。使用语义空间作为嵌入空间意味着需要将视觉特征向量投影到语义空间中,这将缩小投影数据点的方差,从而加剧Hubbness问题

思路是什么?

【论文笔记】Learning a Deep Embedding Model for Zero-Shot Learning_第1张图片

图中给出了一个直观的解释。具体地说,假设特征分布在视觉特征空间中是均匀的,如(a)所示,如果投影的类原型(标签)特征向原点坍缩,它不会改变Hubness问题产生的方式,换句话说,它至少不会使hubness问题加剧。然后如果映射方向相反,也就是说使用语义空间作为嵌入空间,并将视觉特征投影到该空间中,训练目标仍然是类似岭回归的,因此投影的视觉特征表示向量会向原点坍缩,如图(b)所示,因此会产生不利影响,即更靠近原点的语义向量更有可能成为中心。加大hubness问题,以此影响ZSL性能问题。

解决方案的关键是什么?

p.s. 笔者认为视觉特征作为嵌入空间具有本质上优势的原因在于学习目标是通过视觉特征找到对应的语义特征,因此视觉特征在映射时坍缩相当于搜寻区域密度变大,但是语义特征不发生改变,相当于人为把视觉特征往靠近原点的语义特征向量压缩,这对离原点较远的语义特征来说是“不公平”的。

怎么做?

论文的具体贡献

(i) A novel deep embedding model for ZSL has been formulated which differs from existing models in the selection of embedding space.
(ii) A multi-modality fusion method is further developed to combine different semantic representations and to enable end-to-end learning of the representation

(1)提出了一种新的端对端的深度嵌入模型,使用CNN子网输出的视觉特征空间作为嵌入空间,由此产生的投影方向是从语义空间向视觉空间;
(2)能够很自然地衍生到多模态的融合算法中;
(3)在多个数据集上取得了最好的效果。

具体模型和算法

模型结构
【论文笔记】Learning a Deep Embedding Model for Zero-Shot Learning_第2张图片

(a) 仅存在一个语义空间时,语义特征直接连接上一个FC和ReLu层后输出;
(b) 存在两个模态的语义信息,输出特征为
f 2 ( W 1 ( 1 ) ⋅ y i u 1 + W 1 ( 2 ) ⋅ y i u 2 ) f_2(W^{(1)}_1 \cdot y^{u_1}_i + W^{(2)}_1 \cdot y^{u_2}_i ) f2(W1(1)yiu1+W1(2)yiu2)
其中 f 2 ( x ) = 1.7159 ⋅ tanh ⁡ ( 2 3 x ) f_2(x)=1.7159 \cdot \tanh(\frac{2}{3}x) f2(x)=1.7159tanh(32x)
© 存在句子级的语义空间时,使用双向LSTM网络对变长的文本编码为定长的语义向量。

在模态融合时使用岭回归的方法,学习一个W矩阵将语义信息嵌入到视觉特征空间中。

实验结果

【论文笔记】Learning a Deep Embedding Model for Zero-Shot Learning_第3张图片
在数据集AwA和CUB上的结果如表1所示,其中FO表示[1]中的网络,FG表示GoogleNet,FV表示VGGnet,NG表示Inception-V2;A为attribute表示,W为特征的词嵌入表示,D为句子描述(sentence description)。由结果可知,本文算法能够取得最好效果。

提供了哪些思路?

论文从数学本质上分析了hubness问题产生的原因,个人认为其创新点不具有普适性。

你可能感兴趣的:(深度学习,计算机视觉,人工智能)