Visual Genome视觉基因组(1)

Visual Genome

Connecting Language and Vision Using Crowdsourced Dense Image Annotations
数据集网址

摘要:
  尽管在诸如图像分类等感知任务上取得了进展,计算机在诸如图像描述和问题回答等认知任务上仍然表现不佳。认知是任务的核心,认知不仅涉及了识别,而且包括对我们的视觉世界进行推理。然而,用于处理用于认知任务的图像中的丰富内容的模型仍然在使用为感知任务设计的相同数据集进行训练。为了在认知任务中获得成功,模型需要理解图像中对象之间的相互作用和关系。比如当被问及“What vehicle is the person riding?"时,计算机将需要识别图像中的物体以及riding(man,carriage)和pulling(horse,carriage)来正确地回答“the person is riding a horse-drawn carriage”。
  在本文中,我们提出了Visual Genome数据集,来帮助这种关系的建模。我们收集每个图像中的对象、属性和关系的密集注释,以学习这些模型。具体而言,我们的数据集包含超过108K图像,其中每个图像平均有35个对象、26个属性和21个对象之间的成对关系。我们将区域描述和问题回答对中的对象、属性、关系和名词短语规范化为WordNet sysnets。这些注释一起表示图像描述、对象、属性、关系和问题答案对的最密集和最大的数据集。

2.Visual Genome的数据表示
  VG数据集包含了7个主要的组件:区域描述,物体,属性,关系,区域图以及问答对。
Visual Genome视觉基因组(1)_第1张图片上图就是一个例子。为了帮助综合理解图片的研究,我们以搜集图片的描述和问答开始。最初我们得到的都是一些在长度和词汇上没有任何限制的原始文本。然后,我们从描述中提取出物体,属性和关系,这三者会一起组成可以表示一张图的场景图(scene graph)。接下来我们会仔细介绍每一个组件的数据的细节。

2.1 Multiple regions and their descriptions
  一张真实图片中,一句简单的summary往往不能充分地描述图片中的内容。因此,我们通过对基于一张图片的不同场景的描述的收集来扩充对一张图片的描述。在VG中,我们收集的不同的区域的人为描述,这些区域在原图中可以由一个bounding box确定。比如上图中的三个区域描述,值得注意的是,它们之间有所重叠。VG平均每张图包含了50个区域描述,每个描述都是一个1到16词的短语。

2.2 Multiple objects and their bounding boxes
  VG平均每张图片有35个物体,它们都由一个精准的bounding box标了出来。每个物体都会对应于WordNet中的一个synset ID,比如man会对应到man.n.03,person对应到person.n.01, 然后这两个物体其实都可以归为person.n.01,因为它是man.n.03的上位词。使用这样的方法可以避免一个物体有多个名字。

2.3 A set of attributes
  每个物体可能有0个或多个属性,平均每张图片有26个属性。属性可以是颜色,状态(standing)等等。和物体一样,我们也会对属性的名字进行规范化,比如yellow会对应到yello.s.01。

2.4 A set of relationships
  关系可以是动作(如jumping over),空间位置(如is behind),描述动词(如wear),介词(如with),比较词(如taller than)或者介词短语(如drive on)。关系是由一个物体指向另一个物体的,分别叫做subject和object。关系的名字也会规范化到WordNet,如上图中的jumping会归到jump.a.1。VG平均每张图片含有21个关系。

2.5 A set of region graphs
  将前面的物体、属性和关系结合起来,我们可以对每个区域构建一个有向的图进行表示。同样在上图我们可以看到例子。每个区域的有向图都是图片一部分的结构化表示,有向图中的节点表示了物体、属性和关系。物体会指向它们的属性,也会通过关系相连。

2.6 One scene graph
  为了表示整张图的信息,我们将一张图的所有区域有向图结合成为一个大图。通过这种方式我们可以结合不同层次的信息,比如分别知道“fire hydrant is yellow”和“man is jumping over the fire hydrant”,我们可以得到“man is jumping over a yellow fire hydrant”。

2.7 A set of question answer pairs
  VG有两种类型的QA对,基于整张图的freeform,比如“Q. What is the woman standing next to?; A. Her belongings”和基于区域的region-based,比如“Q. What color is the fire hydrant?; A. Yellow.”。问题一共有6中形式:what、where、how、when、who、why。每张图都会有至少一个freeform和一个region-based的问题。region-based问题是通过给标注员提示来进行收集的。可以用来独立地研究模型能在用图片或者区域描述作为输入时回答问题的性能。

你可能感兴趣的:(Visual Genome视觉基因组(1))