Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记

自上而下的视觉注意机制被广泛应用于图像字幕和视觉问答(VQA)中,通过精细的分析甚至多个步骤的推理来实现更深入的图像理解。本文提出了一个自下而上和自上而下的注意机制,使注意力能够在物体和其他显著图像区域的水平上计算。自底向上机制(基于更快的R-CNN)提出图像区域,每个区域都有一个相关的特征向量,而自顶向下机制确定特征权重。
一、文章引入
在人类视觉系统中,注意力可以通过当前任务确定的自上而下的信号(例如,寻找某物)自发地集中,并通过与意外的、新颖的或显著的刺激相关的自下而上的信号自动聚焦。本文采用相似的术语,将非视觉或任务特定语境驱动的注意机制称为“自上而下”,而纯视觉的前馈注意机制称为“自下而上”。
图像字幕和VQA中使用的大多数传统视觉注意机制都是自上而下的。将部分完成的字幕输出或与图像有关的问题的表示作为上下文,这些机制通常被训练成选择性地关注卷积神经网络(CNN)的一层或多层的输出。然而,这种方法很少考虑如何确定需要注意的图像区域。如图1所示,结果输入区域对应于大小和形状相同的神经感受野的统一网格-与图像内容无关。
本文提出了一种自下而上和自上而下相结合的视觉注意机制。自下而上机制提出了一组显著的图像区域,每个区域由一个集合的卷积特征向量表示。使用Faster R-CNN来实现自下而上的注意。自上而下的机制使用特定于任务的上下文来预测图像区域上的注意力分布。然后将参与特征向量计算为所有区域的图像特征的加权平均值。
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第1张图片
图1:通常,注意力模型对CNN特征进行操作,这些特征对应于大小相等的图像区域的统一网格(左)。本文的方法使注意力能够在物体和其他显著图像区域的水平上进行计算(右)。
二、模型简介
给定一个图像I,图像字幕模型和VQA模型都以一组可变大小的k个图像特征V={v1,…,vk},vi∈RD作为输入,使得每个图像特征都编码图像的一个显著区域。空间图像特征V可以被定义为自下而上的注意模型的输出,或者作为CNN的空间输出层。
2.1 Bottom-Up Attention Model
使用 Faster R-CNN 来提取图片中的兴趣点,然后对感兴趣的区域采用 ResNet-101 来提取特征,使用 IoU 阈值来对所有区域进行一个筛选(“hard” attention)。对于每一个区域 i , vi 定义为每个区域的 mean-pooled convolutional 特征(2048维)。使用这种方法从很多候选配置中选出一小部分候选框。
预训练Bottom-Up Attention Model , 首先初始化Faster R-CNN 和 ResNet-101并在ImageNet上进行预训练,然后在Genome data 上进行训练。为了增强学习特征表达的能力,作者增加了一个预测物体属性类别的任务,为了预测区域 i 的属性, 将 vi 与一个代表着物体真实类别的 embedding 连接,并将其喂给一个新增的输出层输出一个在属性类别和非属性类别上的softmax。
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第2张图片
图2:Faster R-CNN自下而上注意力模型的输出示例。每个边界框都标有一个属性类,后跟一个对象类。注意,在字幕和VQA中,只使用特征向量,而不是预测的标签。
2.2 Captioning Model
在给定一组图像特征V的情况下,本文提出的字幕模型使用一种“soft”的自上而下的注意机制来加权caption生成过程中的每个特征,并使用现有的部分输出序列作为上下文。
在较高的层次上,字幕模型由两个LSTM层组成,使用以下符号来说明LSTM在单个时间步长上的操作:
在这里插入图片描述
其中,xt是LSTM输入向量,ht是LSTM输出向量。图3显示了整个字幕模型。
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第3张图片
图3:字幕模型概述。两个LSTM层用于选择性地处理空间图像特征{v1,…,vk}。这些特征可以被定义为CNN的空间输出,或者遵循本文的方法,使用自下而上的注意力生成。
2.2.1 Top-Down Attention LSTM
在字幕模型中,将第一层LSTM描述为自上而下的视觉注意模型,将第二层LSTM层描述为语言模型,在下面的方程中用上标表示每一层。自下而上的注意力输出视为特征V。在每个时间步,注意力LSTM的输入向量由LSTM语言的先前输出组成,LSTM语言与平均池图像特征在这里插入图片描述相连,以及先前生成的单词的编码,由下式给出:
在这里插入图片描述
其中,We∈RE×|∑|是词汇∑的单词嵌入矩阵,∏t是在时间步t对输入词进行的独热编码。这些输入分别为注意力LSTM提供关于语言LSTM的状态、图像的总体内容和迄今为止生成的部分字幕输出的最大上下文。
给定注意LSTM的输出h1,在每个时间步骤t,为k图像特征vi中的每一个生成归一化的注意权重αi,t,如下所示:
在这里插入图片描述
其中Wva∈RH×V,Wha∈RH×M和wa∈RH是学习参数。 用作语言LSTM输入的参与图像特征是所有输入特征的凸组合:
在这里插入图片描述
2.2.2 Language LSTM
语言模型LSTM的输入由attended image特征和attention LSTM的输出串联而成,具体如下:
在这里插入图片描述
使用符号y1:t表示单词序列(y1,…,yT),在每个时间步骤t,可能输出单词的条件分布由以下公式给出:
在这里插入图片描述
其中Wp∈R|∑|×M和bp∈R|∑|是学习权重和偏差。完整输出序列上的分布计算为条件分布的乘积:
在这里插入图片描述
2.3 VQA Model
在给定一组空间图像特征V的情况下,本文提出的VQA模型还使用了一种“软”的自上而下的注意机制来加权每个特征,以问题表示作为上下文。如图4所示,该模型实现了问题和图像的联合多模式嵌入,然后对一组候选答案的分数回归进行预测。
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第4张图片
图4:提出的VQA模型概述。深度神经网络实现了问题和图像特征{v1,…,vk}的联合嵌入。这些特征可以被定义为CNN的空间输出,或者遵循本文的方法,使用自下而上的注意力生成。输出是由多标签分类器在一组固定的候选答案上操作生成的。
网络中学习的非线性变换通过选通双曲正切激活来实现,每个“选通tanh”层实现一个函数fa: x ∈ Rm →y∈Rn,参数a={W,W′,b,b′}定义如下:
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第5张图片
本文提出的方法首先将问题编码为门循环单元(GRU)的隐藏状态q,每个输入字用一个可学习词嵌入来表示。与等式3类似,给定GRU的输出q,为k个图像特征vi中的每个特征生成一个非规范化的注意权重ai,如下所示:
在这里插入图片描述
其中wT是一个可学习的参数向量。方程4和方程5(忽略下标t)用于计算归一化注意权重和被关注图像特征ˆv。可能输出响应的分布由下式给出:
在这里插入图片描述
其中h是问题和图像的联合表示,Wo∈R |∑|×M是学习权重。
三、实验结果
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第6张图片
表1: MSCOCO Karpathy测试集上的单模型图像字幕性能。
在这里插入图片描述
表2. MSCOCO Karpathy测试分类中各个子类别的SPICE F分数细分。

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第7张图片
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记_第8张图片

你可能感兴趣的:(Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记)