【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)

一、背景

文章题目:《In Defense of Grid Features for Visual Question Answering

文章下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Jiang_In_Defense_of_Grid_Features_for_Visual_Question_Answering_CVPR_2020_paper.pdf

文献引用格式Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, and Xinlei Chen. "In Defense of Grid Features for Visual Question Answering." In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020

项目地址:暂无

 

二、文章摘要

Popularized as ‘bottom-up’ attention , bounding box (or region) based visual features have recently surpassed vanilla grid-based convolutional features as the de facto standard for vision and language tasks like visual question answering (VQA). However, it is not clear whether the advantages of regions (e.g. better localization) are the key reasons for the success of bottom-up attention. In this paper, we revisit grid features for VQA, and find they can work surprisingly well – running more than an order of magnitude faster with the same accuracy (e.g. if pre-trained in a similar fashion). Through extensive experiments, we verify that this observation holds true across different VQA models (reporting a state-of-the-art accuracy on VQA 2.0 test-std, 72.71), datasets, and generalizes well to other tasks like image captioning. As grid features make the model design and training process much simpler, this enables us to train them end-to-end and also use a more flexible network design. We learn VQA models end-to-end, from pixels directly to answers, and show that strong performance is achievable without using any region annotations in pre-training. We hope our findings help further improve the scientific understanding and the practical application of VQA. Code and features will be made available.

随着bottom-up注意力的广泛应用,基于bounding box的视觉特征已超过基于格网的卷积特征,主要体现在视觉和语言的交互任务中,比如VQA。但是现在并不清楚,是否由于bottom-up注意力产生的区域是其关键原因。本文重新审视了格网特征,发现他们也可以表现的很好,速度更快且精度相当。通过大量实验,我们证明了这个观点。因为格网特征更容易设计和训练,这可以让我们进行端到端训练并使用更灵活的网络结构。

三、文章介绍

在多模态视觉和语言的研究中,或许最有意义的发现是bottom-up注意力。一般注意力是用top-down语言输入来聚焦于视觉输入的重要区域,而bottom-up注意力则是用预训练的检测子来检测图像中的关键区域。还有,bottom-up中图像注意力是用box或者区域来表示出视觉特征,而不是用格网卷积特征来表示图像注意力。

是什么能够让这些区域特征非常有用?一种推测是因为可以对单个目标进行更好的定位。另一种推测是因为多个区域很容易捕捉粗信息(coarse-level)和精信息(fine-grained)。但是这些优点是否能够说明,区域特征就比格网特征更好呢?

作者通过实验表明,bottom-up注意力取得高精度的主要因素在于:(1)the large-scale object and attribute annotations collected in the Visual Genome dataset used for pre-training。大尺度目标和属性标记。(2)high spatial resolution of the input images used for computing features. 输入图像的高空间分辨率。而关于特征的格式,box或者格网都只是对精度很低程度的影响。

作者基于resnet-50进行了实验比较,结果如下图:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第1张图片

可以看到,作者使用基于格网的,0.02秒处理一张,但是基于box的,需要0.89秒才能处理一张。

1. 相关工作

Visual features for vision and language tasks:VQA中最常用的视觉特征,一般是用VGG或者resnet的格网特征,之后则是bottom-up注意力的区域特征占主要地位。

Pre-training for VQA:VQA的预训练中,图像一般是在ImageNet或者VG数据集上预训练,然后语言再做一个嵌入。但是这种分开的预训练,对于结合视觉和语言的理解并不太好,因此现在一个热点就是一起做预训练,思想就是将视觉区域和文本都作为tokens,用预训练的BERT变种来过滤这些tokens。

Regions vs. grids:关于两种特征的争论,主要是:R-CNN提取区域特征,证明其效果更好。但另一方面,R-CNN的第一个阶段,探测子检测目标的时候是不需要明确的区域级计算,表明格网特征也能够用于目标检测。

2. 从区域到格网

Bottom-Up注意力的区域特征:提取图像特征用的是Faster RCNN,其在VG数据集上进行预训练。要将bottom-up注意力用在VQA上,主要有两个步骤:(1)区域选择,Faster R-CNN是一个两阶段的过程,首先先检测出ROI,然后再进行分类,判断每个box的类别。(2)区域特征计算,在第一阶段检测ROI时,会得到区域级(region-level)的特征,然后再用另外的层来计算他们的表示,最后再将它们叠加在一起。

格网特征:将区域特征转换为网格特征的最简单方法是查看是否可以直接以共享,完全卷积的方式计算同一网络层的输出。Faster R-CNN来讲,它是一个C4模型的变种再加一个额外的属性分类。

两个模型的整个过程如下图的左边所示:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第2张图片

改进的网格特征:作者的想法是使用1×1的ROIPool,这样就能将区域特征转化为向量,而不是一个三维的张量。这似乎是违反直觉的,因为两个附加的空间尺寸(高度和宽度)对于表征2D目标的不同部分很有用。实际上,我们发现此修改会对VG上的目标检测性能产生负面影响。但重要的是,使用1×1的ROIPool也意味着格网特征中的每一个向量,被迫单独覆盖一个空间区域的所有信息,这可能会产生更强的网格特征。在原始模型中直接使用1×1的ROIPool会出现一些问题,因此对于特征计算这里,调整使用ResNet 的C5,另外区域特征计算那里再连接两个1024维的全连接层。

改进后的模型如上图的右边所示。

3. 区域和格网特征的比较

数据集采用VQA2.0,格网特征标记为G,区域特征标记为R,图像特征提取的框架采用Faster R-CNN,其中利用到了ResNet-50,resnet-50是在ImageNet上预训练的,检测子是在VG上预训练的,共有1600个目标类别和400个属性类别。而VQA模型则采用co-attention model。总体的结果如下所示:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第3张图片

区域数量:影响VQA精度除了训练的网络结构,还有就是用于表示一张图像的特征向量数量。默认使用top-100 的boxes,测试的时候是从36个boxes逐步增长来测试精度变化。对于格网特征,网络最终得到的数量是608个。精度变化的结果如下图所示:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第4张图片

精度和时间的比较:使用格网特征大概比使用区域特征快48倍,结果如下图:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第5张图片

量化比较:一些具体的例子如下图所示:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第6张图片

4. 为何格网特征更有效

经过试验作者证明了两个原因:1) input image size输入图像的尺寸; 2) pre-training task预训练任务。总的比较结果如下图所示:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第7张图片

图像尺寸:一般ImageNet上是448×448的,VG上是600×1000的,不同尺寸图像下,模型精度的变化情况如下:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第8张图片

总体趋势就是图像尺寸越大,精度越高。

预训练任务:ImageNet是做预训练分类的,VG是做预训练检测的。同理将模型分别用于YFCC和COCO数据集,结果如下表:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第9张图片

大概原因就是种类,数据量越多,精度越高。

属性:属性的损失权重也会有影响(attribute loss weights),具体为:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第10张图片

5.格网特征的泛化性

泛化性主要从四个方面研究:1) different backbones; 2) different VQA models; 3) different VQA tasks; 4) other tasks.

不同框架:Faster RCNN中换用ResNeXt-101-32x8d,结果表明格网特征仍旧速度是区域特征的23.8倍

不同VQA模型:使用了MCAN,格网特征是区域特征速度的23倍

看图说话:格网特征仍比区域特征快。

整体结果如下表所示:

【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)_第11张图片

四、小结

你可能感兴趣的:(#,视觉问答阅读,科研论文阅读)