VQA数据集及评价方法介绍

    VQA(Visual Question Answering)是一项涉及到计算机视觉和自然语言处理的视觉任务,简单介绍下当前VQA所使用的数据集:
    1. DQAUAR
    DAQUAR(The DAtaset for QUestion Answering on Real-world images)是最早提出的VQA数据集,也是最小的VQA数据集。DAQUAR中的图像来自于NYU-Depth v2 数据集,都是室内场景的RGBD图像,795张用于训练,654张用于测试。DAQUAR中的question/answer pairs主要有两种类型:自动生成的和人工标注的。
    2. COCO-QA
    COCO-QA数据集中的图像来自于MS-COCO数据集,主要包括123287张图像,其中72738张用于训练,38948用于测试,并且每张图像都有一个question/answer pair,每个answer都是一个单词。这些question/answer pair都是根据MS-COCO中的图像描述自动生成的。根据Answer可以将Question分为四类:object、number、color 和location。由于问题都是自动生成的,所以存在一定的重复率。
    3. FM-IQA
    FM-IQA也是基于MS-COCO,包含123,287张图像。它的question/answer pair是通过Amazon Mechanical Turk crowd-sourcing platform自动生成的。注释的人可以提出任何和图像相关的问题,使得FM-IQA相对于之前的数据集更加复杂。FM-IQA中的question/answer pair是中文的,之后才将其翻译成英文的。
    4. VQA dataset
    VQA dataset中的图像主要由两个部分组成:现实图像和抽象卡通图像。VQA-real中有123,287训练图像和81,434测试图像,主要来自于MS-COCO数据集。不同于之前的一些数据集,VQA-real中包含二元问题(i.e, yes/no)。这个数据集中可以进行多选设置,即为每个问题提供17个额外的错误的候选答案。综上所述,VQA-real包含614163个问题,并且每个问题都包含10个来自不同注视者的答案。
    5. Visual Genome
    Visual Genome包含108,249张图像,这些图像来自于YFCC100M和MS-COCO数据集,平均每张图像有17个Q/A pairs。到目前为止,这是最大的VQA数据集。Visual Genome的问题主要由6种”W”构成:what,where,how,when,who和why。
    6. Visual7W
    Visual7W是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。

    评价方法:

  1. Accuracy
  2. Wu-Palmer Similarity (WUPS)

你可能感兴趣的:(VQA,自然语言处理,计算机视觉,VQA)