Visual Reasoning | GQA Dataset

参考博客:
https://blog.csdn.net/hester_hester/article/details/103238649
https://zhuanlan.zhihu.com/p/64183181

CLEVR虽然消除了dataset bias,但是人工合成的图像和问题组成,多样性较低,类和属性较少,容易使模型记住所有组合。
因此提出GQA,由真实图像组成,并在一个大的语义空间中运行,更具挑战性。

GQA数据集围绕真实图像推理、场景理解和合成问题回答等一系列任务,由113K张图像和22M个不同的问题组成。该数据集衡量了一些列推理技能。reasoning skills such as object and attribute recognition, transitive relation tracking, spatial reasoning, logical inference and comparisons.

Introduction

三个贡献:
Visual Reasoning | GQA Dataset_第1张图片

Dataset

借鉴了CLEVR数据集, structured representations and detailed annotations for images and questions
建立了scene graph来表示物体,属性,和关系。同时和CLEVR一样也有functional program
Visual Reasoning | GQA Dataset_第2张图片

具体的生成方式,并且提出一系列metrics,在GQA task进行综合评估

你可能感兴趣的:(Reasoning)