【注意力机制】Bottom-up and top-down attention for image captioning and visual question answering

文章下载地址:https://arxiv.org/pdf/1707.07998.pdf

代码地址:GitHub - peteanderson80/bottom-up-attention: Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

发表地点:CVPR 2018 full oral

1 内容概述

针对VQA以及Image Caption等任务,文章提出一种结合bottom-up以及top-down的注意力机制。

通过Faster R-CNN提取感兴趣的特征,其次计算每个特征的注意力权重,提升整体的实验性能。

2 动机以及创新点

模拟人类视觉理解过程,将针对特定任务或者非视觉驱动的注意力集中方式称为top-down,针对视觉前馈注意力的机制成为bottom-up.

针对VQA以及Image Caption等任务,为了关注图像中的显著性区域,视觉注意力机制应用广泛。但是现有方法常采用的都是top-down形式的,很少关注那些图像区域需要受到关注。

文章作者提出了一种结合bottom-up以及top-down的视觉注意力机制。利用Faster R-CNN提取出一些显著的图像区域,接着利用特定任务的上下文来预测每个区域的注意力权重。

3 模型介绍

3.1 bottom-up注意力模型

【注意力机制】Bottom-up and top-down attention for image captioning and visual question answering_第1张图片

自上而下的注意力就是 利用Faster R-CNN选取任何类别检测概率超过置信度阈值的所有区域,然后提取出每个感兴趣区域的feature vector.

为了获得更好的性能,作者所用的Faster R-CNN是在ImageNet以及Visual Genome上经过预训练的。COCO以及Flickr上经过预训练得到的视觉特征也已经都开源了~

下面具体的caption以及vqa模型现在来看稍显过时了,但是bottom up以及top-down的思想还是值得学习滴~

3.2 Caption模型

caption模型部分也是一个重点,就算没有bottom-up进行特征筛选,也可以在当时做到sota的效果。

【注意力机制】Bottom-up and top-down attention for image captioning and visual question answering_第2张图片

常见的caption模型大体结构为image-encoder-decoder-text结构。

这篇文章的caption模型由双层的LSTM组成。第一层作为top-down的视觉注意力模型,第二层作为语言模型。第一层就是判断每个特征区域的重要性,第二层就是将图像特征解码为文字描述。

3.3 VQA模型

【注意力机制】Bottom-up and top-down attention for image captioning and visual question answering_第3张图片

 

VQA常见的模型就是将问题以及图像放在嵌入空间中比较相似度,选取与图像内容最相近的选项。

在本文中首先,利用问题作为上下文来进行一个top-down的attention判断每个区域的重要性。其次,对于问题做一个word embedding。通过问题和图像的多模态嵌入,接着预测候选答案的回归分数,选出答案。

4 实验结果

Caption任务中,在MSCOCO数据集上完成实验,达到了sota的效果。

VQA任务中,在VQA v2.0上完成实验,也到到了sota效果。

其中从实验结果中可以看出up-down的权重计算方式可以给结果带来提升。

【注意力机制】Bottom-up and top-down attention for image captioning and visual question answering_第4张图片

在可视化结果中可以看到生成的每个单词都有对应的感兴趣的局部区域,可以更加侧重于细节特征。

 

你可能感兴趣的:(VQA,Attention机制,Image,Caption,深度学习,图像处理)