视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning

背景

本篇的工作来自中山大学梁晓丹组,论文被NeurIPS 2019接收。论文介绍到,视觉语言任务(visual-language task)的解决方案粗略地分成两大类型,一种是强大的端到端结构(end-to-end),如Bert,bottom-up and top-down模型,用于学习更加具有鉴别性的特征表示;另一种是发掘视觉对象(visual objects)的内部联系(intra-relationship),即构建同构图(homogeneous graph)的方式,对视觉对象之间的关系进行建模。
目前存在的方法的不足之处:难以满足VCR任务中需要视觉域与语言域的高度对齐这一需求。本文提出利用异构图学习,通过图内和图间的推理将视觉域-语言域桥接起来。

贡献

提出HGL框架,包含两个异构图模块VAHG(visual-to-answer heterogeneous graph和QAHG(question-to-answer heterogeneous graph),此外,针对缺乏标签的特定语义信息(如"rainy day")提出了一种上下文投票机制(contextual voted module)来捕捉这种特定的语义信息,作为图像中常规object特征的补充,为全局推理提供了一个新的视角.

框架

视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning_第1张图片
简要介绍:
通过resnet50提取的object特征与seq2seqEncoder(LSTM)处理的文本特征利用图学习进行contextualization,分别构建了VAHG与QAHG两个(跨域)异构图,两张异构图的输出最终通过全连接进行合并,之后送入到推理模块,模型最终的输出是一个四维向量(即四个选项的概率分数值) ,张量的流动如下图所示.
视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning_第2张图片
异构图模块的初始输入,其中 X a B ∗ d X_a^{B*d} XaBd是answer的特征表示, X o N ∗ d X_o^{N*d} XoNd是图像中objects的特征表示, X q M ∗ d X_q^{M*d} XqMd是question的特征表示.其他细节(如中间过程的矩阵维度)见示意图.
CVM模块
视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning_第3张图片
因为CVM模块穿插于resnet的各个卷积层中, x i l x_i^l xil指的是第 i i i层卷积层的输入,从代码看来, f f f g g g均包含卷积操作, x j l x_j^l xjl是该层其他相关区域的信息(代码中是 x i l x_i^l xil的广义转置处理),之后是softmax操作,紧接着的W同样也是卷积操作.最后CVM模块的输出,与最初该模块的输入 x i l x_i^l xil以残差的形式(逐元素)相加.相当于对原特征的进行补充.

实验结果

视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning_第4张图片

消融研究

视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning_第5张图片

你可能感兴趣的:(视觉常识推理,python,深度学习,计算机视觉)