阅读小结:From Recognition to Cognition: Visual Commonsense Reasoning (CVPR2019)

文章链接:https://arxiv.org/pdf/1811.10830

cvpr2019中Rowan Zellers等作者提出了一个新任务:visual commonsense reasoning,简单来说是,给出一张图片,然后针对这张图片问一个问题,然后机器回答并且给出理由。在这篇文章里,作者的贡献分为4个部分:

  1. 提出视觉常识推理的任务;
  2. 展示一个大范围的多项选择的问答数据集VCR;
  3. 展示生成该数据集相关的新算法adversarial matching;
  4. 提出一个新模型R2C(从识别到认知),用来测试这个新任务。

其中vcr数据集中的图片,都是电影里的场景截图,并且人们是能够明显看出场景中正在进行的事件的。然后,作者请了一些工人,对这些图片进行提问并回答,这些问题中38%是解释性问题,即“为什么”或者“怎么做”, 24%包括认知层面的的活动,比如问场景中的人们当前正在干什么,13%是瞬时推理,猜测该场景之后即将发生什么。在这个任务里,我们首先需要对图片做一个obeject detection,其中可以圈出每个物体的bounding box,segmentation mask和class label。然后工人的提问中,每个词语需要是词汇表里的,或者是物体的tag。工人写的回答和理由内容和提问类似。

本文提出的adversarial matching算法用于生成多选项,这些备选选项与提问文本有联系,但是与正确答案不会过于相似。这里用到了自然语言处理最新的技术BERT和ESIM+ELMo,前者用于计算生成回答和提问文本的联系,后者计算生成回答与正确回答之间的相似度。

然后在R2C模型中,作者做了三个步骤:

  1. 将图片内容和文本关联起来(Grounding);
  2. 联系上下文,将图片信息融入到问题中,然后给出答案(Contextualization);
  3. 根据答案给出原因(Reasoning)。

技术实现方面,主要用到了bidirectional LSTM和CNN。最后的模型评估结果分为三个方面:Q->A,仅仅评估问题回答表现, QA->R仅仅评估答案解释表现, Q->AR,综合评估回答和推理过程。由于都是四选一的选择题,所以单选中有25%的正确率,两轮单选一起统计则是6.25%的正确率。最终在R2C模型上测试得到的结果,以上三方面的准确率(val, test)分别为(63.8%, 65.1%)、(67.2%, 67.3%)和(43.1%, 44.0%)。而人工的准确率分别为91.0%、93.0%和85%。由此可见,该模型之后还有很大的提升空间。在训练和测试的过程中,作者还做了ablation下的实验,有的是缺失问题的情况,有的多是没有图片表示的情况。

总的来说,本文提出了一个新的关于认知层面视觉理解的任务,并且该任务还有很多值得人们去研究的地方。同时本文还做出了常识的推理,比如物理性质、社会关系、过程理解等方面的推理。

你可能感兴趣的:(阅读小结:From Recognition to Cognition: Visual Commonsense Reasoning (CVPR2019))