【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记

一、概述

这篇文章既做了image caption,也做了VQA。所以本文在介绍模型亮点和框架之后,也会对image caption和VQA的建模方式进行介绍,因为大多数模型在这两个任务上都是通用的。

这篇文章相较于之前介绍的几篇在多模态任务上应用attention机制的文章来说,之前的几篇文章:
【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记
【多模态】《Where To Look: Focus Regions for Visual Question Answering》论文阅读笔记
【多模态】《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文阅读笔记
【多模态】《Visual7W: Grounded Question Answering in Images》论文阅读笔记
这几篇文章都是在feature map上做attention的,不管是点积计算相关性还是线性连接计算相关性,soft attention还是hard attention,不管是每一个时间步的word对图像区域做attention还是整体的文本query向量对图像区域做attention,都是在feature map上进行的。

而这篇文章所定义的图像区域,不是feature map,而是Faster R-CNN识别出来的目标bounding box。

所以本文的亮点在于:提出了一种组合的自下而上和自上而下的注意力机制,使注意力能够在对象和其他显着图像区域的级别上进行计算。 自下而上的机制(基于 Faster R-CNN)选出图像区域,每个区域都有一个相关的特征向量,而自上而下的机制确定特征权重。

注意,在本文中,将由非视觉或特定任务上下文驱动的注意力机制称为“自上而下”,将纯视觉前馈注意力机制称为“自下而上”。

图像字幕和 VQA 中使用的大多数传统视觉注意机制都是自上而下的。 将部分完成的字幕输出的表示或与图像相关的问题作为上下文,这些机制通常被训练为选择性地关注卷积神经网络 (CNN) 的一层或多层的输出。 然而,这种方法很少考虑如何确定受关注的图像区域。并且确定图像区域的最佳数量总是需要在粗略和精细的细节水平之间进行无法取舍的权衡。 此外,区域相对于图像内容的任意定位可能会使检测与区域对齐不佳的对象以及绑定与同一对象相关联的视觉概念变得更加困难。

所以在本文中,我们提出了一种组合的自下而上和自上而下的视觉注意机制。 自底向上机制提出了一组显着图像区域,每个区域由一个池化卷积特征向量表示。 实际上,我们使用 Faster R-CNN 实现自下而上的注意力,它代表了自下而上的注意力机制的自然表达。 自上而下的机制使用特定于任务的上下文来预测图像区域上的注意力分布。 然后将参与的特征向量计算为所有区域的图像特征的加权平均值。

不管是基于feature map的attention,还是基于bounding box的attention,都是给定图像 I,我们的图像字幕模型和 VQA 模型都将一个可能大小可变的 k 个图像特征集作为输入,V = {v1, …, vk}, vi ∈ R D R^D RD,使得每个图像特征编码 图像的显着区域。 空间图像特征 V 可以不同地定义为我们自下而上的注意力模型的输出,或者按照标准做法,定义为 CNN 的空间输出层。

二、Bottom-Up Attention Model

在这项工作中,将 Faster R-CNN 与 ResNet-101 CNN 结合使用。 为了生成用于图像字幕或 VQA 的输出图像特征集 V,我们采用模型的最终输出并使用 IoU 阈值对每个对象类执行非最大抑制。 然后我们选择任何类别检测概率超过置信度阈值的所有区域。 对于每个选定的区域 i,vi 被定义为来自该区域的平均池化卷积特征,使得图像特征向量的维度 D 为 2048。以这种方式使用,Faster R-CNN 有效地用作“硬”注意力机制,因为从大量可能的配置中只选择了相对较少数量的图像边界框特征。

三、captioning model

给定一组图像特征 V,我们提出的字幕模型使用“软”自上而下的注意机制在字幕生成期间对每个特征进行加权,使用现有的部分输出序列作为上下文。

模型结构为:
【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记_第1张图片

在每一个时间步,注意力 LSTM 的输入向量包括语言 LSTM 的先前输出,与基于attention机制的图像特征的加权和和先前生成的单词的编码相连接,由下式给出:
【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记_第2张图片
给定注意力 LSTM 的输出 h t 1 h^1_t ht1,在每个时间步 t,我们为每个 k 个图像特征 v i v_i vi 生成一个归一化的注意力权重 α i , t α_{i,t} αi,t,如下所示:
请添加图片描述
请添加图片描述

四、VQA model

VQA模型和image caption模型大体上是相似的。

首先将每个问题编码为门控循环单元(GRU) 的隐藏状态 q,每个输入词使用学习的词嵌入表示。 与等式 3 类似,给定 GRU 的输出 q,我们为 k 个图像特征 vi 中的每一个生成一个未归一化的注意力权重 ai,如下所示:
【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记_第3张图片

你可能感兴趣的:(多模态,深度学习,计算机视觉,人工智能)