论文阅读理解 - Zero-shot Image Tagging by Hierarchical Semantic Embedding

Zero-shot Image Tagging by Hierarchical Semantic Embedding

[Code]

许多细粒度视觉类别的标签获取较为困难,zero-shot 图像标注(image tagging) 旨在采用训练样本中不存在的新标签来标注图像.

现在通常做法是,采用神经语言模型(neural language model) 训练得到语义空间,将图像和标签投影到该语义空间,然后计算跨媒体的相似性,以进行图像标注. 但对于出现频次相对较少的标签,得到的与图像即其它标签的相似性可能不可靠.

本文提出层次语义嵌入(Hierarchical Semantic Embedding, HierSE),采用 WordNet 层次来提高标签嵌入和图像嵌入效果. 另外,采用了两种好的技巧:采用 Flickr 标签来训练自然语言模型,而不是网络文档(web document);采用部分匹配(partial match)向量化的 WordNet 节点,而不是全匹配的方式(full match).

zero-shot learning 不是寻找图像和目标标签的直接映射关系,其关键在于在图像和标签之间引入中间层,使得新标签也可在这层进行表示,即使没有该标签的图像样本.

1. 问题描述

给定未标注图片,zero-shot 图像标注的目标是,利用没有可用训练样本的标签对图片进行自动标注. 主要是通过将图像和新标签嵌入到一个共同的语义空间,以便于通过计算语义空间中对应向量的距离来估计其相关性.

x x 为图片, y y 为标签, p(y|x) p ( y | x ) 为估计 标签 y y 关于图片 x x 相关性的分类器.

给定 m0 m 0 个训练标签集 Y0 Y 0 n n 个训练样本 D0={(xi,yi)}ni=1 D 0 = { ( x i , y i ) } i = 1 n , yiY0 y i ∈ Y 0 . 相应地,记 p0(y|x) p 0 ( y | x ) 为从 D0 D 0 学习得到的 m0 m 0 -way 分类器.

Y1 Y 1 为具有 m1 m 1 个测试标签的集合,其在 zero-shot 学习中没有对应的训练样本, 即 Y0Y1=O Y 0 ⋂ Y 1 = O .

基于 D0 D 0 和某些语义信息,zero-shot 旨在建立一个分类器 p1(y|x) p 1 ( y | x ) 能够对于 Y1 Y 1 能够表现良好.

该方法是在 [1] 的语义嵌入模型的基础上进行的.

2. 语义嵌入模型[1]

每一个标签(label) yY0Y y ∈ Y 0 ⋃ Y 对应着一个语义嵌入向量 s(y)S s ( y ) ∈ S ,其中 S S q q 维坐标空间.

在语义空间中,当且仅两个标签对应向量相近时,两个标签才相似.

在论文[1]中, S S 是采用 Wikipedia 文档训练 skip-gram 模型进行实例化的. 每个 s(y) s ( y ) 是通过匹配 skip-gram 模型中的词语表示的 label得到.

通过将图像投影到语义空间 S S ,即可计算跨媒体的相关性. 为了计算该相关性,该语义模型采用分类器 p0(y|x) p 0 ( y | x ) , 并创建 x x 语义嵌入向量为最相关训练标签的语义向量的凸化组合(convex combination)形式.

即:假设 y(x,t) y ( x , t ) x x 根据分类器 p0(y|x) p 0 ( y | x ) 得到的最相似的第 t t 个训练标签,则 x x 的语义嵌入向量,记为 f(x)S f ( x ) ∈ S ,即可表示为:

f(x):=1ZTt=1p0(y(x,t)|x)s(y(x,t)) f ( x ) := 1 Z ∑ t = 1 T p 0 ( y ( x , t ) | x ) ⋅ s ( y ( x , t ) )

其中, T T 为训练标签的最大数. Z=Tt=1p0(y(x,t)|x) Z = ∑ t = 1 T p 0 ( y ( x , t ) | x ) 是归一化因子.

对于新的标签集 Y1 Y 1 的分类器定义为:

p1(y|x):=cos(f(x),s(y)) p 1 ( y | x ) := c o s ( f ( x ) , s ( y ) )

其中, cos c o s 为余弦距离.

3. 层次语义嵌入

本文方法是通过探索在 WordNet 中定义的层次结构,来构建标签嵌入和图像嵌入的.

假定每一个标签都在 WordNet 中对应一个节点. WordNet 层次结构使得可以从一个特定标签追踪到根节点,得到其所有的原型(ancestors),记为 supper(y) s u p p e r ( y ) .

在论文[1]中只使用了 y y ,这里同时利用 y y super(y) s u p e r ( y ) .

直觉上,越与 y y 接近的节点应该贡献更多.

综上,这里定义层次嵌入向量 shi(y) s h i ( y ) 为:

shi(y)=1Zhiyysuper(y)w(y|y)s(y) s h i ( y ) = 1 Z h i ∑ y ′ ∈ y ⋃ s u p e r ( y ) w ( y ′ | y ) ⋅ s ( y ′ )

其中, w(y|y) w ( y ′ | y ) 是权重,服从关于从 y y y y ′ 的最小路径长度的指数延迟(exponential delay). Zhi=yysuper(y)w(y|y) Z h i = ∑ y ′ ∈ y ⋃ s u p e r ( y ) w ( y ′ | y ) 是归一化因子.

在上述公式中, super(y) s u p e r ( y ) 使得 y y 能够映射到语义空间 S S ,这种凸化组合使得稀少标签的相似性度量更加可靠.
论文阅读理解 - Zero-shot Image Tagging by Hierarchical Semantic Embedding_第1张图片

4. Results

论文阅读理解 - Zero-shot Image Tagging by Hierarchical Semantic Embedding_第2张图片

参考文献

[1] - Zero-shot learning by convex combination of semantic embedding. In ICLR, 2014

你可能感兴趣的:(论文阅读)