Visual Genome视觉基因组(2)

4.Crowdsourcing strategies(众包策略)

  VG全部是由Amazon Mechanical Turk上的众包工作者收集和验证的。下面我们会概述创建数据集的每个组件流水线方法。每个组件的构造都包含多个阶段,我们会提到我们采用的使得数据变得更准确和多样的策略。我们也会介绍一下这些使得VG成为可能的工作者们的背景信息。


4.1 Crowd works(众包)


  我们使用AMT作为VG标注的主要来源,一共有超过33000名不同的工作者参与了VG的标注。数据表示的实验和迭代上我们花了15个月,数据的收集则花了超过6个月。AMT上大约有800000个人类智力任务(Human Intelligence Tasks,HIT),每个任务包括了创建描述、问答或者区域图。通过连续地做HIT,标注工作者可以在任何时候赚到大约6到8美元每小时。VG HIT的保留率是94.1%,意味着有94.1%的工作者在完成了VG的一个任务后还完成了更多。工作者的93.02%来自美国,主要年龄在25到34岁之间。同时男女的比例分别为54.15%和45.85%,还算比较均衡。


4.2 Region descriptions(区域描述)


  VG的主要目标是要帮助认知计算机视觉任务的研究,这需要理解图片的场景图表示中的物体关系。但是,我们发现直接从图片中得到场景图会使得标注很简单,会出现很多简单关系(如wearing(man,shirt)),而忽略了图片上其它显著的部分。通过实验我们发现要求标注者用自然语言描述一张图片时,他们会自然地从图片最显著地部分出发,逐渐描述到其它的细节部分。因此我们专注于收集内容丰富的区域描述。
  当一张没有任何标注的新图片进入pipeline的时候,首先它会被送到那些负责画bounding box和写bounding box区域对应的描述的工作者(画3个bbox)。接着图片会带着刚刚的描述被送给下一个工作者。工作者们被鼓励尽可能去写没有被写过的描述,这个过程一直重复到图片有了50个区域描述。为了防止工作者过多地浏览前面的描述,我们仅给他们显示top-7的最相似的描述。
  当工作者写了新的描述后,我们会通过BLEU分数小于0.7判断它和前面写的描述有所区别。前面的描述主要分为两个list,一个是image-specific的,就是当前图片上别人写的描述,另一种是global的,就是所有图片中经常出现的top-100的描述,比如什么“sky is blue”。当然top-100会随着标注的变多而更新。
  对于bounding box的要求是需要覆盖对应描述中所有出现的物体。


4.3 Objects(物体)


  收集到50个区域描述之后就开始从每个描述里面提取物体。每个描述会被送至一个标注员,它会提取出描述中的所有物体并且用bounding box将它们标记出来。注意上一步bounding box都标记的是区域,当然可能一个区域只有一个物体,但这次只会精确到每个物体。bounding box必须要刚刚好把一个物体包裹住,我们设置的标准是误差再4个像素之内。
  一张图的多个描述可能是指的同一个物体,只不过有时用了不同的词。比如一个描述中的man和另一个描述中的person可能指的都是同一个人。因此我们建立了一个共同参照链,每次让一个标注员处理每个区域描述的时候,我们都会给他一个包含了之前提取出来的物体的列表作为建议,这可以让标注员选择之前画的man的bounding box作为当前描述中person的box,而不是重新画一个bounding box。
  最后为了提高任务完成速度,我们采用Stanford的dependency parser自动地提取描述中的名词给标注员作为建议。但是由于parser会存在一些遗漏,所有我们没有完全依赖这一种手段。只是将其用作了帮助提高标注员工作速度的一种辅助手段。


4.4 Attributes,Relationships,and Region Graphs(属性、关系和区域图)


   一旦每个区域描述的所有物体都被提取出来,我们就开始提取区域描述中的属性和关系了。我们将每个区域描述和其对应的提取出来的物体送到每个标注员,然后让他们根据文本描述给物体添加属性或者用关系连接物体对。经过上面的步骤得到物体、属性和关系后,他们一起构成了区域描述对应的区域图(region graph)。但是要注意的是,有的描述比如“it is a sunny day”就不包含任何物体,因此也就没有对应的区域图,标注员也被要求不要对这样的描述生成区域图。结合所有区域图我们就可以生成一张图片的场景图了。


4.5 Scene Graph(场景图)


  场景图是所有区域图的集合。我们将不同区域图中对应的相同实体会合并成一个节点。比如两个区域图中的man和person指的其实是图中的相同物体,这里我们定义不同的区域图中的bounding box的IoU大于0.9则认为它们指的是同一个物体。但是这种启发式的方法可能会出错,因此在合并之前,需要标注员确定那些显著相交的box对的确是相同的物体才行。


4.6 Questions and Answers(问答)


  为了生成问答对(QA pair),我们让AMT的工作者来写关于图片的问答对。为了保证质量,我们确定了三条规则:1.用6个W开始问题;2.避免含混的和推测的问题;3.精确且唯一,问题要与图片相关,并且是清楚可回答的,但必须需要看图才能知道答案。
  我们收集上面说过的两种类型的QA。在freeform中,我们让标注员看整张图片然后写QA,为了鼓励问题的多样性,我们要求标注员至少写出3个不同的W的问题。在region-based里,我们要求标注员根据一个给定的区域写QA。我们选择超过5k个像素点的大区域并且描述超过4个词,这让我们可以用约8个freeform的代价收集到大约20个region-based的QA对。一般来讲,freeform的问题可以产生更多的不一样的可以丰富问题分布的QA对,region-based的问题可以用较低的代价产生更多基于事实的QA对。


4.7 Verification(验证)


  VG的数据在被标注后都要先通过验证,验证阶段会帮助消除不正确的物体标注、属性标注以及关系标注。也会去掉一些虽然正确但是含糊的(比如This person seems to enjoy the sun),主观性的(比如room looks dirty)或者带有意见的(比如Being exposed to hot sun like this may cause cancer)。
  验证主要使用两种策略:majority voting和rapid judgements。除了物体以外的数据集的组件都用majority voting进行验证。该方法就是让3个标注员对相同的标注进行投票看是否正确,如果有至少2个人认为正确,那么就把这个标注加入数据集。我们只使用rapid judgement来加速对物体的验证。


4.8 Canonicalization(规范化)


  我们收集的所有描述和QA都是freeform的工作者生成的文本,这些文本没有任何限制。比如,我们不会强制标注员将图中的man标注为man,他们也可以将其标注为person、boy等等。这种模糊性会使得从我们的数据集中收集所有的man的个体变得比较难。为了减少VG数据集中概念的模糊性并且将其和其它研究者们使用的资源关联起来,我们将所有的物体、属性关系以及区域描述中的名词短语和QA对都映射到了WordNet中的同义词。在上面的例子中,person、boy和man分别会被映射到person.n.01(a human being),male_child.n.01(a youthful mal person)和man.n.03(the generic use of the word to refer to any human being)。由于WordNet的层次性,我们可以用person.n.01来对三个表达进行重用,因为这是上面几个同义词的最低公共父节点。
  我们用Stanford的NLP工具提取区域描述和QA对中的名词短语,然后根据WordNet的词素统计我们会将这些名词短语映射到他们在WordNet中最匹配的同义词。接着我们通过对30个最常见的错误人工规定映射规则从而改进先前的映射策略。比如根据WordNet的词素统计,table最常出现的语义是table.n.01(a set of data arranged in rows and columns),但是在我们的数据集中,table更多地应该映射到table.n.02(a piece of furniture having a smooth flat top that is usually supported by one or more vertical legs)。
  我们会基于morphology(词法)对每个属性进行规范化并且将它们映射到WordNet中的形容词上。我们包括了15个手动定制的规则来处理一些常见的错误的情况,主要是在一张图片中看见的词的固有意义或者空间意义并不是它最常见的意义。比如,long.a.02(of relatively great or greater than average spatial extension)在WorNet中比long.a.01(indicating a relatively great or greater than average duration of time)更不常见,尽管我们的数据集图片中更多地指的是空间意义。
  我们会忽略所有关系中的介词,因为WordNet不考虑这些介词。又由于动词的意思与他们的词法和句法高度相关(比如被动语态和介词短语),我们尝试寻找WordNet中句子结构和数据集中relationship的结构匹配的同义词集合。WordNet中的句子结构是规范化的词法结构,在这种词法结构中,某个单词只会出现固定的意思,比如play.v.01:participate in games or sport经常出现在如someboy [play]s或者somebody [play]s something的句子结构中。对于每个动词同义词对,我们都要考虑这个同义词的根上位词以减少WordNet的细粒度语义区分所带来的干扰。WordNet的动词层次性是由超过100个根动词发源和分割的。比如,draw.v.01:cause to move by pulling可以回溯得到根上位词move.v.02:cause to move or shift into a new position,而draw.v.02:get or derive会回溯到根节点get.v.01:come into the possession of something concrete or abstract。我们也手动制定了20个映射规则来纠正WordNet的一些实体或者空间意义的低层表示。
  这些映射依然存在一些模糊性,因此我们将我们的映射以及每个term的top-4同义词集交给AMT处理。我们让工作者确认我们的映射是否准确,如果他们觉得有更合适的映射,就改变映射到一个可选的同义词集。我们会给工作者展示我们想要规范化的某个concept和我们提出的其对应的同义词集以及4个额外的同义词集选项。为了阻止总是选择我们提出的规范化同义词集,我们不会显示地指出给定的5个同义词集中哪一个是我们的。

你可能感兴趣的:(Visual Genome视觉基因组(2))