目录
一、文献摘要介绍
二、网络框架介绍
三、实验分析
四、结论
本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流, 另附:论文下载地址
一、文献摘要介绍
Attention networks in multimodal learning provide an effificient way to utilize given visual information selectively.However, the computational cost to learn attention distributions for every pair of multimodal input channels is prohibitively expensive.To solve this problem, co-attention builds two separate attention distributions for each modality neglecting the interaction between multimodal inputs.In this paper, we propose bilinear attention networks (BAN) that find bilinear attention distributions to utilize given vision-language information seamlessly.BAN considers bilinear interactions among two groups of input channels, while low-rank bilinear pooling extracts the joint representations for each pair of channels. Furthermore, we propose a variant of multimodal residual networks to exploit eight-attention maps of the BAN effificiently. We quantitatively and qualitatively evaluate our model on visual question answering (VQA 2.0) and Flickr30k Entities datasets, showing that BAN signifificantly outperforms previous methods and achieves new state-of-the-arts on both datasets.
作者认为,多模式学习中的注意力网络提供了一种有效的方法,有选择的利用给定的视觉信息。但是,学习每对多模式输入通道的注意力分布计算的成本过高,为解决这个问题,共同注意为每个模式建立了两个单独的注意力分布,而忽略了多模式输入之间的交互。而在本文中作者提出了一种双线性注意力网络(BAN),它可以找到双线性注意力分布,来无缝地利用给定的视觉-语言信息。BAN考虑两组输入通道之间的双线性相互作用,而低秩双线性池化提取每对通道的联合表示。此外,作者还提出了一种多模式残差网络的变体,以有效的利用BAN的8注意力图。实验表明BAN明显优于以前的方法。
二、网络框架介绍
在本论文中,作者将共同注意力的概念扩展为双线性注意力,它考虑了每对多模式通道,例如成对的疑问词和图像区域。如果给定的问题涉及到由多个单词表示的多个视觉概念,则使用每个单词的视觉注意力分布的推理,可以比使用单个压缩注意力分布的推理,更好的利用相关的信息。
在这个背景下,作者提出了双线性注意力网络(BAN),以在低秩双线性池化的基础上使用双线性注意力分布。BAN利用两组输入通道之间的双线性相互作用,而低秩双线性池化则提取每对通道的联合表示,此外作者还提出了多模式残差网络(MRN)的变体,有效利用BAN的多个双线性注意力图,下图展示了网络的框架。
由于所提出的用于BAN的残差学习方法利用的是残差求和而不是级联,从而导致参数和性能有效的学习多达8个一瞥的BAN,上图展示了2个BAN的概述,下面进行详细的分析该框架。
2.1 Low-rank bilinear pooling
首先回顾一下,低秩双线性池化及其在注意力网络中的应用,该网络使用单通道输入(问题向量),将其他多通道(图像特征)组合为单通道的中间表示(注意力特征)。
Low-rank bilinear model
先前的工作中提出了一种低秩双线性模型,以降低双线性权重矩阵
的秩,以给出规律性。为此将
替换为两个较小的矩阵
,其中
和
。结果,这种替换使得
的秩最大为
。对于标量输出
(在不是一般性的情况下省略了偏置项):
其中,
是一个ones向量,
表示element-wise multiplication (逐元素乘法)。
2.Low-rank bilinear pooling
对于输出向量
,引入了池化矩阵
后:
其中和
。通过为输出向量
引入P,可以使得U和V为二维张量,从而大大减少了参数的数量。
3.Unitary attention networks
注意力提供了有效机制,通过有选择地利用给定的信息,减少输入的通道。 假设多通道输入Y由
个的列向量,组成,我们希望使用权重
从 Y获得单通道
:
其中,
表示注意力分布,以选择性地组合
输入通道。使用低秩双线性池化,
由softmax函数的输出定义为:
其中,
和
。如果G>1,则使用mutiple glimpses(多一瞥),然后参与输出的串联。最后,可以使用两个单通道输入
和
,利用另一个低秩双线性池化对分类器进行联合表示。
2.2Bilinear attention networks
我们推广了一个双线性模型,用于两个多通道输入,
和
,其中
和
分别是两个输入通道的数目。为了同时减少两个输入通道,我们引入双线性注意图
如下:
其中,
表示中间的第k个元素,矩阵的下标k表示列的索引。请注意,上述公式是两组通道的双线性模型,其中中间的
是双线性权重矩阵,也可以重写公式为:
其中
和分别表示输入
的第
个通道(列)和输入
的第
通道(通道),
和
分别表示
和
矩阵的第
列,而
表示
的第i行和第j列中的元素。请注意,对于每对通道,两个特征向量的
双线性表示是在上述公式中的建模的(最终对于
最多为
双线性池化)。那么,双线性联合表示为
其中,
和
。为方便起见,我们将双线性注意力网络定义为由双线性注意力图参数化的两个多通道输入的函数,如下所示:
Bilinear attention map
我们使用逐元素乘积和矩阵乘法,注意力图
定义为:
其中,
和
。softmax函数采用逐元素地。请注意,softmax的每个
是低秩双线性池化的输出,如下所示:
多个双线性注意图可以扩展如下:
其中,
和
的参数是共享的,但
不共享,其中
表示瞥见(glimpses)的索引
2.Residual learning of attention
作者提出了一种MRN的变体,以整合来自多个双线性注意力图的联合表示。第
个输出定义为:
其中,
和
。这里,
的大小与
的大小相同,处理连续的注意力图。为了获得分类器(例如两层MLP)的对数,我们将最后一个输出
的通道维数相加,其中G是瞥见(glimpses)的次数。
2.3Nonlinearity and classififier
1.Nonlinearity.
我们用
函数给BAN赋予非线性:
其中,
表示。对于注意地图,被定义为:
2.Classififier
对于VQA,我们使用两层多层感知器(激活函数为relu)作为最终联合表示
的分类器,从候选数量答案为3129中选择答案,其中答案最少出现9次,才能作为候选答案。二元交叉熵被用于损失函数。对于Flickr30k实体,取双线性注意图的输出,二进制交叉熵用于此输出。
三、实验分析
图像特征和问题嵌入的大小分别为
=2048和
=1024。联合表示C的大小与低秩双线性池中的秩K相同,
但双线性注意图中使用
提高注意的剩余学习的表征能力。每一个线性映射通过权重归一化和丢弃进行正则化(p=.2,带有.5的分类器除外)。Adamax优化器是一个基于无穷范数Adam的变体。学习率是
,其中
是从1开始,然后在10个阶段之后,学习费率每2个周期递减1/4,最多13个周期(即第11个周期为
,第13个周期为
)。我们将用2-范数修剪向量化梯度为.25。批处理大小为512,下面是进行试验和消融研究。
表1:VQA 2.0数据集的验证分数,以了解BAN 瞥见(glimpses)的数量。
表2:VQA 2.0数据集对注意力和交互机制的验证分数。
不同参数对准确率的影响。
可视化结果。
Flickr30k数据集上的实验研究。
四、结论
BAN gracefully extends unitary attention networks exploiting bilinear attention maps, where the joint representations of multimodal multi-channel inputs are extracted using low-rank bilinear pooling. Although BAN considers every pair of multimodal input channels, the computational cost remains in the same magnitude, since BAN consists of matrix chain multiplication for effificient computation. The proposed residual learning of attention effificiently uses up to eight bilinear attention maps, keeping the size of intermediate features constant. We believe our BAN gives a new opportunity to learn the richer joint representation for multimodal multi-channel inputs, which appear in many real-world problems.
作者提出了双线性注意力网络,利用MRN残差网络的变体进行联合表示,最后通过MLP进行分类,预测答案。值得学习和思考。