《Zero-Shot Recognition via Semantic Embeddings and Knowledge Graphs》论文笔记

目录

 

abstract

introduction


abstract

zero-shot 识别问题:

  •  学习 存在一个没有训练样例 的类别 的视觉分类器。
  • 根据所提供的视觉数据,使用这个类的word embedding这个类与其他类别的关系,来训练该视觉分类器。

解决方法:将相似类的知识转移到这个类来描述这个类。


本文在图卷积网络(Graph Convolutional Network,GCN)的基础上提出了使用semantic embeddings方法和categorical relationships来预测分类器。给定一个学到的知识图谱(KG),每个表示了视觉分类的node将semantic embeddings作为输入。经过一系列图卷积后,我们对每个category预测视觉分类器。

在训练的过程中,对于一小部分categories的视觉分类器被用来学习GCN的参数。在测试阶段,filters预测unseen categories的visual classifiers。

本方法在KG中对噪声是鲁棒的。


introduction

  • zero-shot ==> 从已知的相似标签来进行泛化。
  • transferring knowledge:1.隐式知识表示(如semantic embedding),首先使用text data来学习到不同categories的向量表示,然后学习一个向量表示和视觉分类器(visual classifier)之间的映射。但是这种方法的向量本身和映射的“泛化”能力不好;而且,在结构化信息中学习semantic embedding是困难的。     2.explicit knowledge base or knowledge graph,将知识表示为objects之间的规则或者relationships。这些relationships可以用来对new categories来学习zero-shot classifiers。最简单的例子是学习组合类别(compositional catcategories)的可视分类器,将原始的视觉概念当作分类器的输入,应用简单的合成规则来为新的复杂概念生成分类器,但一般情况下,关系比简单合成要复杂。

本文中,提出了使用隐式知识表示(word embedding)和显示知识表示(knowledge graph)来学习新类别的视觉分类器。我们建立了一个 每个node与一个semantic category相关 的知识图谱,这些node使用关系边连接。图中每个node的输入是每个类的semantic embedding,然后用6层深的GCN(T. N. Kipf and M. Welling. Semi-supervised classification with graph convolutional networks. ICLR, 2017.)来在不同的categories之间传递信息。

实验:针对图像分类问题。测试部分的设置为:最终的测试类是zero-shot的,即在测试的时候没有training classes;在测试时,label可以是seen或者unseen类别的。“generalized zero-shot setting”。结果:That is a whopping 18.7% improvement over the current state-of-the-art. 且该方法可以扩展,增加知识图谱的大小时,有抗噪性。

(未完)

你可能感兴趣的:(论文调研)