这篇文章是在ReGAT-关系感知图形注意网络用于视觉问答的基础上的进一步研究,
文章首先通过一个例子说明ReGAT模型只考虑了图像的区域之间的关系,没有考虑问题的单词之间关系就会造成答案错误。例如上图,问题是裁判员的衣服颜色是什么,答案却是黑色而不是蓝色。原因就在于没有考虑问题中单词之间的关系(这其实类似于注意力中只考虑图像各区域的自注意而没有考虑单词的注意力
)
本文贡献:
1)提出了一种双通道图卷积网络(DC-GCN)来同时捕捉视觉和文本的关系,并设计了注意对齐模块来对齐多模态表示,从而减少视觉和语言之间的语义差距。
2)探索如何通过图卷积网络在语言层面构建单词之间的句法依赖关系,以及在视觉层面构建对象之间的关系。
3)我们在VQA-v2和VQA-CP-v2数据集上进行了大量的实验和消融研究,以检验我们DC-GCN模型的有效性。实验结果表明,该DC-GCN模型在现有方法的基础上取得了较好的性能。
本文首先通过faster rcnn得到图像特征hv(100×2048),然后先将每个单词嵌入300维度的Glove向量中,再将单词嵌入送到LSTM编码中得到问题特征hq(14×300),每个图像100个区域,每个问题14个单词。
分别经过图像图卷积模块和问题图卷积模块得到更新后的图像特征Hv和Hq,然后再送入注意对齐模块来对齐多模态表示,进而预测答案。
在具体分析之前,可以看到,送入图像图卷积模块的出来区域特征还有空间关系,这个空间关系就是每个区域的位置特征(x1,y1,x2,y2),送入问题图卷积模块的除了问题嵌入,还有依赖解析,即每个单词之间的关系,具体有以下几种:
图像卷积模块的处理步骤如上图所示:
1,全连接图:首先建立每个节点(区域的每个对象)建立全连接图。一张图片中的每个区域作为一个顶点。
2,通过空间关系剪枝,得到稀疏图。有重叠就有关系,边为1,无重叠就无关系,即边为0。
3,然后计算权重。具体地,通过计算两个区域特征的相关性分数,计算两个区域重叠的面积,来确定两个区域之间关系权重。文章认为重叠越多的关系越大。
Sij是两个区域的相似性分数,hvi表示第i个图像节点特征,[hvi, hvj]是一种级联操作
aij是两个对象之间的权重,图片中的红色数字。
4,然后是通过图卷积进行节点更新,最后进行不同层级的更新,得到最终的Hv
A是区域关系矩阵,区域i和j有关系,则Aij=1,否则,Aij=0
在L层后输出
与图卷积类似,不同的是11种空间关系(覆盖,包含,重叠等)变成了上面的15种语义依赖分析的关系(det 决定因素,dep 依赖关系,root 根节点等)。
每个句子中的单词视为一个节点,同样是经过全连接,剪枝稀疏图,赋予不同权重,更新节点,得到Hq。
通过上面的图像图卷积和问题图卷积模块得到更新后的图像和问题特征Hv,Hq
首先是问题的自注意,然后是问题引导图像的注意。
最后进行答案预测:
模型在VQA2.0上面确实得到了不错的结果,但是,在VQA-cp 2.0上面的结果远低于CSS模型的结果(58.95%)
一些个人看法:
1,文章的主要贡献在于在ReGAT的基础上添加了问题的图卷积,如果想继续深入研究,注意力的是一方面,图卷积的顺序可能也是一方面。就像注意力机制一样,注意力的顺序连接方式。(而且为什么只对问题有自注意,对图像没有自注意,个人认为对问题进行自注意可能会省略信息,而对图像没有自注意,可能会有噪声,因为一个图像取100个区域,而一个问题只有14个单词。)
2,文章提出的观点有一点点缺陷,文章开头例子是想说明之前的工作没有考虑问题对答案的影响,而实际上,文章提出的模型解决问题并不在于添加了问题的图卷积,而是在于后面的问题对于图像的引导。
3,文章内容中对关系的考虑,过多的考虑空间关系,而没有考虑图像的语义关系。
作者的消融实验只考虑了I-GCN和Q-GCN对实验的影响,对上述疑问并过多没有考虑
以上只是个人看法,另外ReGAT模型只看了一篇博客,没有看原文也没有跑代码,如果理解有误,欢迎批评指正