《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》是一篇关于image caption方向的论文,收录在2018CVPR中,最近在阅读这篇论文,因此做一篇关于该论文的笔记,有不对的地方大家可以在评论区进行探讨探讨。

什么是 Bottom-Up and Top-Down Attention

  • “在我们的方法中,Bottom-Up机制(基于Faster R-CNN)提出图像区域,每个区域都有一个相关的特征向量,而Top-Down机制决定特征权重”
  • “在人类的视觉系统中,注意力可以被由当前任务所决定的自上而下的信号(例如,寻找某物)所集中,也可以被与意外的、新奇的或显著的刺激相关的自下而上的信号所自动地集中”
  • “在本文中,我们采用了类似的术语,将非视觉或特定任务环境驱动的注意机制称为Top-Down,将纯视觉前馈注意机制称为Bottom-Up”。

Introduction

Image caption使用的大多数传统视觉注意机制都是自上而下的。将部分完成的字幕输出的表示或与图像相关的问题作为上下文。然而,这种方法很少考虑如何确定受到关注的图像区域。如图所示,产生的输入区域对应于大小和形状相同的神经感受野的均匀网格,而与图像的内容无关。为了产生更多类似人类的标题和问题答案,物体和其他显著的图像区域是更自然的注意力基础。

从下面两幅图中可以看出使用CNN需要使用比Faster R-CNN更多的特征,而且很多特征往往是无用的。Faster R-CNN的目标检测方法,首先针对图像获取兴趣区域,然后对每个兴趣区域应用目标检测器,这样就可以准确的获得图像类别;而CNN方法需要输入整幅图像,而且用于大样本分类的网络往往很复杂,计算量更大。另外,Faster R-CNN对之前几代R-CNN方法进行改进,实现了只输入一次就可以识别所有对象的能力,极大的提高的处理效率。
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记_第1张图片

Approach —— Bottom-Up Attention Model

  • 这项工作根据边界框定义了空间区域,并使用Faster R-CNN实现自下而上的注意
  • 这项工作使用了Faster R-CNN和Resnet -101 CNN。对于每个选择的区域 i, v i {v_i} vi被定义为该区域的均值池卷积特征,使得图像特征向量的维数D为2048。
  • 然后使用Visual Genome data 训练。为了帮助学习好的特征表示,本文增加了一个额外的训练输出,用于预测属性类(除了对象类)。
  • 《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记_第2张图片

Approach —— Captioning Model

使用两个LSTM层选择性地处理空间图像特征{ v 1 {v_1} v1,…, v k {v_k} vk}。这些特征可以定义为CNN的空间输出,或者按照我们的方法,使用自下而上的注意力生成。
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记_第3张图片

Top-Down Attention LSTM

Top-Down Attention LSTM在每个时间步的输入向量由 Language LSTM的前一个时刻的隐层输出、平均池化图像特征 v ˉ = 1 k ∑ i v i \bar{v}=\frac {1} {k} \sum_{i}^{} {v_i} vˉ=k1ivi连接,以及前一个生成的单词的编码组成。这些输入分别为Top-Down Attention LSTM提供了关于Language LSTM的最大的上下文信息、图像的整体内容和到目前为止生成的部分caption。

给定Top-Down Attention LSTM的t时刻隐变量输出 h t 1 h_t^1 ht1,在每个时间步长t,我们为每k个图像特征 v i {v_i} vi生成一个归一化的注意权重 α a , i \alpha_{a,i} αa,i,如下所示:在这里插入图片描述
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记_第4张图片

Language LSTM

语言模型LSTM的输入由t时刻计算得到的的图像特征和Top-Down Attention LSTM的t时刻隐变量组成。
使用符号y1:T表示一组单词(y1,…, yT),在每个时间步长t,可能输出单词的条件分布为:
在这里插入图片描述

你可能感兴趣的:(image,caption,深度学习,人工智能,网络,python)