这篇博客这样写

Relation-Aware Graph Attention Network for Visual Question Answering阅读笔记

Abstract

这篇论文的工作以一个新的维度为中心，使用问题自适应的对象间关系丰富图像表示，以提高VQA性能。主要有以下的贡献：

1、我们提出了一种新的基于图形的关系编码器，用于通过图形注意网络学习视觉对象之间的显式和隐式关系。
2、学习到的关系是问题自适应的，这意味着它们可以动态地捕捉与每个问题最相关的视觉对象关系。

一背景

大多数现有技术对VQA的重点在于学习图像和问题的多模态联合表示。具体而言，卷积神经网络（CNN）或基于区域的CNN（R-CNN）是通常用作图像编码的视觉特征提取器。并且递归神经网络（RNN）用于问题编码。在从视觉特征提取器获得稀疏的图像区域集合之后,多模态融合用于学习一个代表每个区域和问题之间的一致性的联合表示。然后将这种联合表示输入一个答案预测器，以产生一个答案。

事实证明，这个框架对于VQA任务很有用，但是图像和自然语言之间仍然存在着显着的语义鸿沟。
例如，给定一组斑马的图像该模型可以识别黑白像素，但不能识别哪些白像素和黑像素来自哪个斑马。因此，很难回答诸如“最右边的斑马是小斑马吗？”或“所有斑马都吃草吗？”这样的问题。VQA系统不仅需要识别对象(“斑马”)和周围环境(“草”)，还需要识别图像和问题中有关动作(“吃”)和位置(“在最右边”)的语义。

本文提出了一种基于关系感知的图形关注网络（ReGAT），引入了一种新颖的关系编码器它将每个图像编码成图形，并通过图形注意机制对多种类型的对象间关系进行建模，以学习自适应问题的关系表示。
探讨了两种视觉对象关系：
(1)表示物体间几何位置和语义相互作用的显式关系
(2)捕捉图像区域间隐藏动态的隐式关系

不同类型的relation

该论文意识到，物体的视觉关系可以分为三大类：
语义关系：物体对象之间的语义依赖性，以捕捉视觉场景中的交互动态（如：）
空间关系：物体对象之间的相对几何位置，以与问题中的空间描述对齐（如：< motorcycle - next to-car>）
Implicit Relation (隐式关系）:以上两种关系被称为explicit relation，因为它们都是可以被明确命名的，但还有一些关系是我们无法说清楚的，却对模型正确回答问题有重要帮助，于是文章称之为implicit relation。

文章最大的动机是用不同的graph对这三种关系建模，然后综合起来。

Regat既考虑显式关系又考虑隐式关系来丰富图像表示。对于显式关系，我们的模型使用图注意网络(GAT)，不是使用的简单图卷积网络(GCN)。与GCN相反，GAT的使用允许为同一邻域的节点分配不同的重要性。对于隐式关系，我们的模型通过过滤掉与问题无关的关系，而不是平等地对待所有关系，从而学习了一个适合于每个问题的图

二 ReGAT模型概述

图1：regat模型的架构。显式关系（语义关系和空间关系）和隐式关系都被考虑在内。所提出的关系编码器通过图形注意捕获问题自适应对象之间的交互。

Relation-aware Graph Attention Network

提出的用于可视化问答的ReGAT的模型架构。使用Faster R-CNN来检测一组目标区域。这些区域级特征然后被馈送到不同的关系编码器以学习关系感知的问题自适应视觉特征，其将与问题表示融合以预测答案。

下面介绍图2中各个部分：

对于图像编码器，使用Faster R-CNN用于识别一组对象其中每个对象vi与视觉特征向量vi∈Rdb和边界框特征向量bi∈Rdb存在密切关联。(k＝36，dv＝2048，db=4）。每个bi=[x，y，w，h]对应于一个四维空间坐标，其中(x，y)表示边框左上角的坐标，h/w对应于边框的高度/宽度。

关于问题编码器，我们使用具有门控循环单元(GRU)的双向RNN，生成问题嵌入(dq=1024)。

三图构造

Fully-connected Relation Graph

通过将图像中的每个对象vi视为一个顶点，我们可以构造一个完全连通的无向图

其中 E是K×(K-1)边集。每个边表示两个对象之间的隐式关系，这两个对象可以通过图注意分配给每个边的学习权重来反映。所有的权重都是在事先不知情的情况下隐式学习的。我们将建立在此图形上的关系编码器命名为隐式关系编码器。

Pruned Graph with Prior Knowledge

基于先验知识的剪枝图。如果顶点之间存在显式关系，则通过修剪不存在对应显式关系的边,可以将完全连接的图Gimp变换成显式关系图。
对于每对对象i，j，如果是有效关系，则从i到j创建一个边，并使用边标签p。以这种方式，图形变得稀疏，并且每个边缘对图像中的一个对象间关系进行先验知识编码。我们将建立在此图上的关系编码器命名为显式关系编码器。
这些特征的显式性质要求预先训练的分类器以离散类标签的形式提取关系，它们代表了肉眼可见的物体之间的动态和交互。我们探索了两个实例：空间图和语义图。

Spatial Graph