ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文设计了一个Cross-Modality Relevance Module(跨模态相关模块),对不同模态的信息进行关联,且在不同的task上都是端到端训练。
下载链接

动机

跨模态表示学习中,有一类方法致力于寻找处理不同模态数据时,components和structure的相关性,现有的方法多使用注意力机制。随着信息检索领域的发展,寻找不同信息之间的相关性(也就是“matching”)作为核心问题,变得越来越重要。之后,Transformer出现了,受益于“matching”,其在多个task上取得了SOTA。但是,这种在注意机制中的“matching”是用来学习一组权重,来突出components的重要性,忽略了relevance patterns(相关模式,这个词我没有很get到)。本文正是从此出发,直接基于relevance score学习不同模态的表示,达到了新的SOTA。

贡献

  1. 提出跨模态相关框架(cross-modality relevance framework),在一个对齐的空间中,同时考虑不同模态的实体相关性和关系相关性;
  2. 在多个跨模态任务中,可以直接端到端地训练;
  3. 在VQA和NLVR任务上,都达到了新的SOTA。

方法

本文方法的整体框架如下图所示,乍一看感觉挺复杂,其实重点在于图的右侧:Entity (Relational) Relevance Affinity Matrix、Entity (Relational) Relevance Representation。
ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记_第1张图片
首先,对两种模态( μ \mu μ v v v)的信息进行单模态处理,对于文本信息,使用预训练的BERT;对于图像,先使用预训练的FasterRCNN提取proposals,对于每个proposal,使用Visual Transformer再进一步处理。然后,将得到的两种模态特征拼接,经过本文提出(引入)的跨模态Transformer(此模块会重复堆叠)进行对齐,计算self-attention的过程,和Transformer中一样。将和注意力融合后的每个proposal (word)的特征,称为Visual (Textual) Entity Representations(实体表示),使用 S ′ μ ( 或 v ) = [ S 1 ′ μ ( 或 v ) , S 2 ′ μ ( 或 v ) , . . . , S N μ ( 或 v ) ′ μ ( 或 v ) ] S^{' \mu(或v)}=[S^{' \mu(或v)}_{1}, S^{' \mu(或v)}_{2},...,S^{' \mu(或v)}_{N^{\mu(或v)}}] Sμ(v)=[S1μ(v),S2μ(v),...,SNμ(v)μ(v)]表示。第三,得到模态 μ \mu μ和模态 v v v的实体表示后,先计算Entity Relevance Affinity Matrix(实体相关关联矩阵,简称“实体关联矩阵”),然后基于此矩阵,计算Relational Relevance Affinity Matrix(关系相关关联矩阵,简称“关系关联矩阵”)。计算实体关系矩阵的过程,其实就是矩阵乘法—— A μ , v = ( S ′ μ ) T S ′ v A^{\mu,v}=(S^{'\mu})^TS^{'v} Aμ,v=(Sμ)TSv,计算关系关联矩阵的过程,后面再单独说。最后,在两个关联矩阵上,分别做卷积、全连接,得到 Φ μ \Phi_{\mu} Φμ Φ v \Phi_{v} Φv,将二者拼接,得到最终的Entity Relevance Representation(实体相关表示),用于后续任务。

下面介绍如何计算关系关联矩阵,整个计算过程可以总结为下图(论文中的Fig 2)。整个过程就是,对于每一种模态,基于实体关联矩阵,在所有可能的关系( N × ( N − 1 ) 2 \frac{N\times(N-1)}{2} 2N×(N1))中,选出Top-K个(本文中 K = 10 K=10 K=10),将得到的两个模态的Top-K矩阵相乘,得到关系关联矩阵。
ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记_第2张图片

实验

在NLVR2数据集上的实验结果:
ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记_第3张图片
在VQA v2.0数据集上的实验结果:
ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记_第4张图片
关联矩阵的可视化:
ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记_第5张图片

你可能感兴趣的:(vision&language,#,others)