CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文是CVPR2020的一篇oral文章,指导教师是中山大学的李冠斌教授。
下载链接

动机

方法的动机: 分析RE(Referring Expression)的语言结构是至关重要的,因为这些结构信息为视觉内容提供了推理的布局。但是,现有工作忽略了语言结构信息,学习RE与视觉内容的整体匹配分数,或是忽视语法信息,通过self-attention分析语言结构。

数据集的动机: ①. 现有数据集存在dataset biases;②. 数据的level分布不平衡,简单的数据较多(eg:红色衣服、长头发的人;蓝色的卡车),困难数据较少(eg:在蓝色卡车后面的红色衣服、长头发的人);③. 数据集的metric只基于最终的预测结果,忽略了中间的推理过程;④. 针对③有人提出了Clevr-ref+数据集,但是这个数据集是合成数据集,过于简单,缺乏真实世界中的场景信息。

贡献

  1. 提出SGMN (scene graph guided modular network)
  2. 提出一个大规模的、real-world数据集——Ref-Reasoning
  3. 在新数据集和以前大家常用的数据集上,都超过了SOTA

方法

本文方法的整体框架如图所示,共分为三个步骤:①. 将RE和Image分别建模为Graph;②. 计算inference order;③. 基于inference order进行reasoning,下面一一进行介绍。
CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记_第1张图片

①. Scene Graph Representations。对于Image,每个object视为一个node,每个node的特征包括两方面:visual feature + spatial feature。edge通过考虑两个node的spatial feature和入点的visual feature来确定。对于RE,用一个现成的场景图解析方法(2015年的一个方法)对其进行解析。

②. Design Inference Order。 在RE生成的场景图上,将出度为零的node视为referent node,将场景图上的所有边反向,以referent node为初始点,进行BFS,但是和传统BFS不同的是,不使用队列,而是用栈。根据每个节点在BFS中的访问顺序,将它们入栈。最终,栈中节点的出栈顺序,即为Inference Order。

③. Reasoning。 根据Inference Order,每次从栈中拿出一个node,node分为两种:叶子节点(入度为零)、中间节点。对于叶子结点,首先,基于self-attention弄一下;然后,将初始feature输入AttendNode neural module,在Image Scene Graph上计算attention;最后,将两个attention map结合(后面还有个Norm模块)。对于中间节点,它必有一个入边(也可能是多个),基于Image Scene Graph计算每个边的attention,然后将这些attention maps进行transfer,再combine即可。

关于数据集的构造过程,这里不赘述了,感兴趣的朋友可以去看看原文。

实验

在新提出的Ref-Reasoning数据集上的实验结果:
CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记_第2张图片
在Ref-Reasoning数据集上的消融实验:
CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记_第3张图片
在一些common数据集上的实验结果:
CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记_第4张图片
可视化结果:
CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记_第5张图片

你可能感兴趣的:(vision&language,#,referring,expression,CVPR2020,SGMN)