【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集

前言:有些文献虽然不是综述,但其中多多少少都有介绍数据集的情况,对目前公开的VQA数据集有了详细的介绍,可以起到类似综述的效果,让读者能更好的对现有数据集有更加直观的认识,其功用类似综述,该文章中对数据集的分类比较客观,主要可以分为两类,一类是自然图像,用于图像内容理解研究;一类是合成图像,用于图像中的关系推理研究。

文章下载地址

文章目录

  • 【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集
    • Abtract
    • 1. Introduction
    • 2. Related Work
      • 2.1.VQA数据集
        • VQA v1/VQA v2。
        • TDIUC [24]
        • CVQA [5]
        • VQACPv2 [4]
        • CLEVR [20]
        • CLEVR-CoGenT
      • 2.2. VQA Algorithms
    • 3. The RAMEN VQA Model
      • 3.1. Formal Model Definition
      • 3.2. Implementation Details
        • Input Representation
        • Model Configuration
        • Training Details
    • 4. VQA Models Evaluated
        • Bottom-Up-Attention and Top-Down (UpDn)[6]
        • Question-Conditioned Graph(QCG) [41]
        • Bilinear Attention Network (BAN) [28]
        • Relation Network(RN)[48]
        • Memory, Attention and Composition (MAC)
      • 4.1. Standardizing Models
    • 5. Experiments and Results
      • 5.1. Main Results
        • Generalization Across VQA Datasets.
        • Generalization Across Question Types.
        • Generalization to Novel Concept Compositions.
        • Counting and Numerical Comparisons.
        • Other CLEVR Tasks
      • 5.2. Ablation Studies
      • 5.3. Newer Models
    • 6. Discussion: One Model to Rule them All?
    • 7. Conclusion

Abtract

视觉问答(VQA)的研究分为两个阵营:

  • 第一个阵营侧重于需要自然图像理解的VQA数据集
  • 第二个阵营侧重于测试推理的合成数据集
    一个好的VQA算法应该两者都有,但是只有少数VQA算法是以这种方式测试的。我们在覆盖两个领域的八个VQA数据集上比较了五种最先进的VQA算法。为了使比较公平,所有模型都尽可能标准化,例如,它们使用相同的视觉特征、回答词汇等。我们发现,这些方法不能在这两个领域进行推广。为了解决这个问题,我们提出了一种新的VQA算法,这种算法在这两个领域都可以媲美或超过最先进的水平。

1. Introduction

视觉问答(VQA)需要一个理解和推理视觉语言概念的模型回答关于图像的开放性问题
正确回答这些问题需要大量的能力:
包括对象定位、属性检测、活动分类、场景理解、推理、计数等等。
第一个VQA数据集包含了真实世界的图像和众包问答[36,9]。人们认为这将是一个极其困难的问题,并将其作为视觉图灵测试的一种形式提出来,以测试计算机视觉的性能。然而,很明显,许多高性能算法在没有真正理解视觉内容的情况下,探索了偏见和表面相关性
例如
回答VQAv1 [9]中所有是/否问题的“是”,这些问题的准确率为71%[25]。
后来自然图像VQA数据集努力解决这个问题。通过将每个问题与互补的图像和不同的答案联系起来:
VQAv2 [16]减少了一些形式的语言偏见。
TDIUC [24]分析了对多种问题和更罕见答案的概括。
CVQA [5]测试概念组成。
VQACPv2 [4]测试训练和测试分布不同时的性能。

虽然后来的自然图像数据集减少了偏差,但这些数据集中的绝大多数问题并没有严格测试推理技能。 创建了几个合成数据集[20,7]作为补救措施。

它们包含简单的视觉场景,带有测试多步推理、计数和逻辑推理的挑战性问题。为了正确评估算法的健壮性,这些数据集的创建者认为算法应该在两个领域都进行测试[20,7]。

然而,几乎所有最近的论文都只报道了这两个领域中的一个。
CLEVR的最佳算法没有在自然图像VQA数据集上测试[19,21,37,44,53],反之亦然[10,6,28,39,13]。
这里,我们在八个数据集上测试了五个最先进的VQA系统。我们发现,大多数方法在这两个领域都表现不佳(图1),有些方法的性能大幅下降。我们提出了一个新的模型,在所有评估的数据集上与最先进的方法竞争。
【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第1张图片

我们的主要贡献有:

  1. 我们在八个VQA数据集上对五种最新的算法进行了严格的比较,我们发现许多算法不能跨领域推广。
  2. VQA算法通常使用不同的视觉特征和答案词汇,这使得评估性能增益变得困难。我们努力标准化跨模型使用的组件,例如,我们比较的所有算法都使用相同的视觉特征,这需要提升合成场景的方法以使用区域建议。
  3. 我们发现大多数VQA算法不能理解真实的文字图像和执行合成推理。所有这些方法在泛化测试中都表现不佳,表明这些方法仍在利用数据集偏差。
  4. 我们描述了一种新的VQA算法,它在所有数据集上都可以与最先进的方法相媲美,并且整体性能最好。

2. Related Work

2.1.VQA数据集

在过去的四年里,许多VQA数据集被提出。在这里,我们简要回顾一下实验中使用的数据集。表1给出了这些数据集的统计数据。评论见[25]和[51]。
【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第2张图片

VQA v1/VQA v2。

VQAv1 [9]是从人类注释者那里收集的最早的开放式VQA数据集之一。VQAv1有多种语言偏见,包括一些与特定答案高度相关的问题。VQAv2 [16]试图通过收集每个问题的互补图像来减轻这种语言偏见,从而导致不同的答案,但其他类型的语言偏见仍然存在,例如,与检测问题相比,推理问题很少。这两个数据集已被广泛使用,VQAv2是自然图像VQA的事实上的基准。

TDIUC [24]

试图通过将问题分为12种不同的类型来解决注释者提出的问题类型中的偏见,从而实现细致入微的任务驱动评估。它有度量标准来评估跨问题类型的概括。

CVQA [5]

是VQAv1的一个再分支,用于测试对训练中没有看到的概念作文的概括,例如,如果训练集询问“绿灯”和“红灯”,测试集将询问“红灯”和“绿灯”。CVQA测试以看不见的方式组合以前看到的概念的能力

VQACPv2 [4]

重新组织VQAv2,使得每个问题类型的答案在训练和测试集中有不同的分布,例如,“蓝色”和“白色”可能是“什么颜色…”的最常见答案训练集中的问题,但这些答案在测试集中很少出现。由于它在训练集和测试集中有不同的偏差,在VQACPv2上做得好表明该系统通过克服训练集中的偏差来推广。

CLEVR [20]

是一个综合生成的数据集,由具有简单几何形状的视觉场景组成,旨在测试“合成语言和基本视觉推理” CLEVR的问题往往需要复杂推理的长链。为了实现对推理能力的精细评估,CLEVR的问题被分为五个任务:“查询属性”、“比较属性”、“存在”、“计数”和“整数比较”。因为所有的问题都是以编程方式生成的,所以**CLEVR-Humans[21]**数据集的创建是为了给CLEVR场景提供人工生成的问题,以测试对自由形式问题的泛化。

CLEVR-CoGenT

==测试处理看不见的概念组合和记住旧概念组合的能力。==它有两个拆分:CoGenT-A和CoGenT-B,形状+颜色组合互斥。如果在CoGenT-A上训练的模型在没有微调的情况下在CoGenT-B上表现良好,10473则表明对新作品的推广。如果在CoGenT-B上微调的模型在CoGenT-A上仍然表现良好,这表明有能力记住旧的概念组合。这些数据集中的问题比CVQA中的大多数问题都要复杂。

仅使用VQAv1和VQAv2就很难衡量一个算法是否能够执行健壮的组合推理,或者它是否使用表面相关性来预测答案。在某种程度上,这是由于寻找众包问题和答案的局限性,人类倾向于针对特定图像更频繁地问某些类型的问题,例如,如果场景中有两个相同类型的东西,并且几乎从来没有零答案,则最经常问计数问题。虽然CVQA和VQACPv2试图克服这些问题,但合成数据集[20,7,22]在更大程度上最小化了这种偏差,并作为衡量特定推理技能的重要试金石,但合成视觉场景缺乏复杂性和可变性。

自然数据集和合成数据集的目的是互补的,合成数据集的创建者认为两者都应该使用,例如,形状的创建者,一个早期的VQA数据集,类似于CLEVR,写道“虽然在这个数据集上的成功绝不是稳健的视觉质量保证的充分条件,但我们认为这是一个必要的条件”[7]。虽然这个建议在很大程度上被社区忽略了,但我们坚信有必要证明VQA算法能够在自然和合成领域处理VQA问题,只需稍加修改。否则,算法的泛化能力将无法得到充分评估。

2.2. VQA Algorithms

目前已经提出了许多用于自然图像VQA的算法,包括贝叶斯方法[23,36],使用空间注意力的方法[52,33,40,6],合成方法[7,8,18],双线性汇集方案[29,14],以及其他[50,41,26]
空间注意机制[6,33,38,14,10]是自然语言VQA最广泛使用的方法之一。注意力计算视觉和文本特征的相关性分数,允许模型只处理相关信息。其中,我们评估了UpnN[6],QCG [41]和BAN [28]。我们将在第4节中更详细地描述这些算法。

类似地,已经为合成VQA数据集创建了许多方法。通常,与自然图像算法相比,这些算法更强调学习合成性、关系推理和可解释性。常见的方法包括模块化网络,其中一些使用基本事实程序[21,37],另一些隐式学习合成规则[18,19]。其他方法包括使用关系网络(RNs) [48]、早期融合[34]和条件特征变换[44]。在我们的实验中,我们评估了RN [48]和MAC [19],这将在第4节中详细解释。

虽然存在罕见的例外[18],但这些算法中的大多数仅在自然或合成VQA数据集上进行评估,而不是两者都进行评估。此外,一些声称具有特定能力的算法没有在为测试这些能力而设计的数据集上进行测试,例如,QCG [41]声称具有更好的合成性能,但没有在CVQA [5]上进行评估。在这里,我们评估了自然和合成VQA数据集上的多种最先进的算法,并提出了一种适用于两者的新算法。

3. The RAMEN VQA Model

我们提出了VQA多模嵌入网络的递归聚合模型。它被设计成一个概念上简单的架构,可以适应自然场景的复杂性,同时也能够回答需要复杂的组合推理链的问题,这些问题发生在像CLEVR这样的合成数据集上。如图2所示,RAMEN分三个阶段处理视觉和问题特征:
【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第3张图片

  1. 视觉和语言特征的早期融合。视觉特征和语言特征之间的早期融合和/或使用语言对视觉特征的早期调节已被证明有助于成分推理[34,44,12]。受这些方法的启发,我们建议通过将空间定位的视觉特征与问题特征连接起来来进行早期融合。
  2. 通过共享投影学习双峰嵌入。连接的视觉+问题特征通过共享网络传递,产生空间局部化的双峰嵌入。这个阶段帮助网络学习视觉和文本特征之间的相互关系。
  3. 学习的双峰嵌入的循环聚合。我们使用双向门控递归单元(双向GRU)来聚集场景中的双峰嵌入,以捕捉双峰嵌入之间的交互。最后的前向和后向状态本质上需要保留回答问题所需的所有信息。

虽然最近最先进的自然图像VQA模型使用注意[6]或双线性池机制[28],RAMEN能够在没有这些机制的情况下进行比较。同样,与CLEVR的现有模型相反,RAMEN不使用预定义的模块[37]或推理单元[19],但我们的实验证明它能够进行组合推理。

3.1. Formal Model Definition

RAMEN的输入是一个嵌入q ∈ R d R^d Rd和一组N个区域建议 r i r_i ri R m R^m Rm的问题,其中每个ri都有视觉外观特征和空间位置。RAMEN首先将每个建议与问题向量连接起来,然后进行批量规范化,即,
在这里插入图片描述
其中⊕代表串联。然后,所有N个向量通过一个函数 F ( c i ) F (c_i) F(ci),该函数混合特征以产生双峰嵌入 b i = F ( c i ) bi= F (c_i) bi=F(ci),其中 F ( c i ) F (c_i) F(ci)是使用具有剩余连接的多层感知器(MLP)建模的。接下来,我们通过连接每个双峰嵌入和原始问题嵌入来执行后期融合,并使用
在这里插入图片描述
其中函数A使用bi-GRU模型,函数A的输出由前向和后向GRUs的最终状态串联而成。我们称a为RAMEN嵌入,然后发送到预测答案的分类层。虽然RAMEN比最近的VQA模型简单,但我们表明它在数据集之间具有竞争力,不像更复杂的模型。

3.2. Implementation Details

Input Representation

我们将问题词表示为用预先训练的GloV e向量[43]初始化的300维嵌入,并用GRU处理它们以获得1024维问题嵌入,即q ∈ R1024。每个区域建议ri∈r 2560由与空间信息连接的视觉特征组成。视觉特征是基于更快的R-CNN [47]的自下而上架构[6]产生的2048维CNN特征。空间信息是通过将每个建议分成16×16的(x,y)坐标网格来编码的,然后将其展平以形成512维的向量。

Model Configuration

投影仪F被建模为一个4层MLP,有1024个单元,具有嗖嗖的非线性激活功能[45]。它在第2层、第3层和第4层有残余连接。聚合器A是一个单层双GRU,具有1024维的隐藏状态,因此前向和后向状态的连接产生了2048维的嵌入。这种嵌入是通过一个2048维的完全连通的swish层来投影的,然后是一个输出分类层,在数据集中每个可能的答案有一个单元。

Training Details

RAMEN是用Adamax训练的[30]。在[28]之后,我们对前4个时期使用渐进学习率预热(2.5∫时期∫104),对时期5至10使用5∫104,然后每2个时期以0.25的速率衰减,使用早期停止。小批量是64。

4. VQA Models Evaluated

在本节中,我们将简要描述在我们的实验中评估的模型。

Bottom-Up-Attention and Top-Down (UpDn)[6]

结合自下而上和自上而下的注意力机制来执行VQA,自下而上的机制从更快的R-CNN [47]生成对象建议,自上而下的机制预测这些建议的注意力分布。自上而下的注意力是任务驱动的,使用问题来预测图像区域上的注意力权重。该模型在2017年VQA研讨会挑战赛中获得第一名。为了公平比较,我们将它自下而上的区域特性用于所有其他VQA车型。

Question-Conditioned Graph(QCG) [41]

将图像表示为图形,其中来自自下而上区域建议的对象级特征[6]作为图形节点和边,对问题制约的区域之间的交互进行编码。对于每个节点,质量控制图选择一个具有最强边连接的节点邻域,产生一个问题特定的图结构。该结构由面片算子处理,以执行空间图形卷积[31]。选择这个模型背后的主要动机是检验所提出的组合推理的图形表示和操作的有效性。

Bilinear Attention Network (BAN) [28]

通过考虑所有区域建议(视觉通道)与所有问题词(文本通道)之间的交互,融合了视觉和文本模式。与双重注意机制[38]不同,BAN处理所有通道之间的相互作用。它可以被认为是联合表示每个通道对的低秩双线性汇集方法的推广[33,29]。BAN通过连接的剩余连接支持多次注意。它在VQAv2的测试标准分割上达到70.35%,这是最好的公布结果之一。

Relation Network(RN)[48]

接收每对区域提议,嵌入它们,并对所有N2pair嵌入进行求和,以产生编码对象之间关系的向量。这种成对的特征聚合机制支持组合推理,正如它在CLEVR数据集上的表现所证明的那样。然而,RN的计算复杂度随着对象数量的增加而二次增加,使得当对象数量较大时运行成本较高。最近有人试图通过减少输入到RN的输入对象的数量来减少成对比较的数量[35,2]。

Memory, Attention and Composition (MAC)

使用自动学习执行基于注意力的推理的计算细胞。与需要预定义模块来执行预定义推理功能的模块化网络[7,18,8]不同,MAC直接从数据中学习推理机制。每个媒体访问控制单元维护一个表示推理操作的控制状态和一个作为推理操作结果的存储状态。它具有类似计算机的结构,带有读、写和控制单元。在CLEVR数据集上对媒体访问控制进行了评估,并报告了在具有挑战性的计数和数值比较任务上的显著改进。

4.1. Standardizing Models

VQA模型通常使用不同于以往模型的视觉特征来实现最先进的性能,这使得很难判断良好的性能是来自模型改进还是视觉特征表示的改进。为了使跨模型的比较更有意义,我们对所有数据集的所有算法使用相同的视觉特征。具体来说,我们使用2048维的“自下而上”CNN特征,该特征由训练有素的更快的R-CNN模型[15]的区域建议生成器产生,该模型具有ResNet-101后端。在[49]之后,我们将自然图像的建议数量固定在36个,尽管当使用额外的建议时,性能可能会提高,例如,其他人报告说,将100个建议与BAN一起使用可以略微提高其性能[28]。这个更快的R-CNN模型是为视觉基因组上的对象定位、属性识别和包围盒回归而训练的[32]。虽然美国有线电视新闻网的特征地图在捷克斯洛伐克共和国很常见,但捷克斯洛伐克共和国最先进的方法也在向地区提案转移[53]。对于使用CLEVR图像的数据集,我们训练了一个单独的快速R-CNN进行多类分类和包围盒回归,因为在视觉基因组上训练的快速R-CNN没有很好地转移到CLEVR。为此,我们使用场景注释中指定的3D坐标/旋转来估计边界框。我们将CLEVR区域的数量固定在15个。我们还用一个512维的向量来扩充这些特征,该向量表示关于盒子的位置信息,如第3.2节所述TDIUC,CLEVR, CLEVR-Humans and CLEVR-CoGenT.。根据[6],我们将候选答案集限制为在训练+验证集中出现至少9次的答案,导致VQAv1的词汇为2185个答案,VQAv2的词汇为3129个答案。根据[4,5],我们将答案词汇表限制为CVQA和VQACPv2的1000个最常见的训练集答案。对于VQAv2,我们在训练和验证分割上训练模型,并在testdev分割上报告结果。对于剩余的数据集,我们对模型的训练分割进行训练,并报告验证分割的性能。

Maintaining Compatibility. UpDn、QCG和BAN都是根据地区提案运作的。对于媒体访问控制和注册网络,我们需要修改输入层来接受自底向上的特征,而不是卷积特征映射。这样做是为了在所有数据集上使用相同的特征,也是为了升级RN和MAC,使它们在通常使用这些特征的自然图像数据集上具有竞争力[6]。对于媒体访问控制,我们用自下而上特征的线性投影代替初始2D卷积运算。这些是通过MAC的读取单元馈送的,该单元保持不变。对于RN,我们移除初始卷积网络,并以问题嵌入作为输入直接连接自下而上的特征。在这些变化之后,两种模型的性能与使用学习的卷积特征映射作为输入的版本相当,在CLEVR验证集上,MAC达到98%,RN达到95.97%。

5. Experiments and Results

5.1. Main Results

在这一节中,我们展示了当前VQA算法无法在自然和合成数据集上进行推广,并展示了RAMEN在所有数据集上与性能最好的模型竞争。我们还对所有六种算法的抗偏性、组成性和泛化能力进行了比较分析。表2提供了我们在所有八个数据集上所有六种算法的主要结果。我们对所有数据集使用标准度量,即,我们对CLEVR系列数据集使用简单精度,对TDIUC使用每类型平均值,对VQAv1、VQAv2、CVQA和VQACPv2使用“10-choose-3”。与其他模型相比,RAMEN的一些输出示例如图3所示。

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第4张图片

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第5张图片

Generalization Across VQA Datasets.

RAMEN在TDIUC和CVQA上取得了最高的结果,并且是VQAv1、VQAv2、VQACPv2和所有CLEVR数据集的第二好模型。平均而言,它在所有数据集上得分最高,表明它可以在测试推理的自然数据集和合成数据集上进行归纳。BAN获得了第二高的平均分数。BAN在自然图像数据集上运行良好,在VQAv1、VQAv2和VQACPv2上优于其他模型。然而,BAN表现出有限的组合推理能力。尽管在概念上比BAN简单得多,但RAMEN在CLEVR上的表现优于BAN 6%(绝对),在CLEVR-CoGenT-B上的表现优于BAN 10%。在所有的组合推理测试中,RAMEN都在MAC的1.4%以内。UpDn和QCG在CLEVR上表现不佳,QCG的得分低于50%。

Generalization Across Question Types.

我们使用TDIUC来研究跨问题类型的概括。TDIUC有多个准确性指标,每种类型的均值(MPT)和归一化每种类型的均值(MPT)补偿偏差。如表3所示,所有方法的简单准确率都达到82%以上;然而,MPT和高考分数都低了13-20%。较低的MPT分数表明,所有算法都在努力推广到多个任务。拉面的MPT评分最高,为72.52%,其次是BAN,为71.10%。对于所有的算法,“物体存在”、“物体识别”和“场景识别”都是最简单的任务,所有的方法都达到了84%以上的准确率;然而,这些任务都有相对大量的训练数据(每个60K - 657K质量保证对)。所有这些方法在“运动识别”(31K个质量保证对)上表现良好,达到93%以上,但在概念相似的“活动识别”(8.5K个质量保证对)任务上表现不佳,达到62%以下的准确率。这表明不能用更少的例子概括问题类型。为了强调这一点,TDIUC提供了归一化MPT (N-MPT)度量,通过考虑回答频率来衡量对罕见答案的概括。标准化和非标准化分数之间的差异在所有模型中都很大。拉面的差距最小,表明对回答分布偏差有更好的抵抗力,而BAN的差距最大。
【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第6张图片

Generalization to Novel Concept Compositions.

我们使用CVQA和CLEVR-CoGenT-B来评估概念的组成性。如表2所示,CVQA的分数低于VQAv1,这表明所有的算法在以新的方式组合概念时都会遇到困难。媒体访问控制的性能下降最大,这表明它的推理单元不能有效地组合现实世界的视觉语言概念。

为了评估在合成数据集上归纳新概念组合的能力,我们在CLEVR-CoGenT-A的训练分割上训练模型,并在没有微调的情况下在验证集上进行评估。根据[44],我们从验证集“B”中获得一个测试分割,并报告没有对“B”进行微调的性能。所有算法都显示性能大幅下降。与CVQA结果不同,MAC的性能下降幅度较小。同样,RAMEN的性能下降相对较小。VQACPv2的更改优先级性能。在不断变化的优先级下,所有算法的性能都会大幅下降。这表明,要让VQA算法克服语言和视觉上的先验知识,让它们能够更有效地学习使用可推广的概念,还有很多工作要做。

Counting and Numerical Comparisons.

对于CLEVR,计数和数字比较(“等整数”、“大于”和“小于”)是跨算法的最具挑战性的任务,如表4所示。MAC在这些任务上表现最好,其次是RAMEN。除了MAC和QCG之外,其他算法在“小于”和“大于”问题类型之间存在很大的(> 4.8%)差异,这需要类似的推理。这种差异在注册护士中最为明显(9.13%),表明在语言理解方面存在困难。BAN使用计数模块[54];然而,它在CLEVR计数任务上的表现仍然比MAC低9%。所有的算法在自然图像中也很难计数。尽管TDIUC有超过164K的计数问题,但所有方法在这些问题上的得分都低于62%。
【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第7张图片

Other CLEVR Tasks

其他CLEVR任务。如表4所示,除了数字比较,RAMEN在所有任务上的性能都在MAC的0.03-1.5%以内。UpDn和QCG是所有查询类型中性能最差的模型。除了QCG,所有的模型都很容易回答关于物体属性和存在的问题。除了UpDn和QCG之外的模型在需要比较这些属性的属性比较问题上表现良好。令人惊讶的是,BAN发现需要更多推理的属性比较比更简单的属性查询任务更容易。我们展示了在没有微调的情况下CLEVR-人类的结果,以检查如果他们只在CLEVR的词汇上训练,算法和自由形式语言的效果如何。BAN表现出最好的概括,其次是RAMEN和RN。
【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第8张图片

5.2. Ablation Studies

表5给出了多项消融研究的结果,以测试RAMEN组件的贡献。我们发现早期融合对RAMEN的性能至关重要,消除它会导致CLEVR的绝对精度下降近20%,VQAv2的绝对精度下降4%。切除晚期融合对CLEVR和VQAv2影响不大。与使用平均池相比,我们还探索了使用双GRU进行聚合的效用,并发现这导致了两个数据集的性能下降。我们认为,重复聚合有助于捕捉双峰嵌入之间的相互作用,这对推理任务至关重要,并且它还通过执行一种非最大抑制的形式来帮助移除重复的提议。

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第9张图片

5.3. Newer Models

自从我们开始这个项目以来,已经发布了额外的VQA算法,一些算法已经取得了比我们在一些数据集上评估的模型更高的分数。透明设计(TBD)网络[37]通过使用地面真实函数程序来训练网络,在CLEVR上获得99.10%的准确性,这对于自然VQA数据集是不可用的。神经-符号VQA (NS-VQA) [53]在CLEVR上的得分为99.80%,但使用问题解析器来分配功能模块以及高度专业化的基于分段的CNN功能。他们没有进行消融研究来确定使用这些视觉特征的影响。我们比较的模型都无法访问这些额外的资源。通过使用来自其他VQA数据集的额外数据和集合,可以显著改善VQAv2的结果,例如,2018年挑战赛的获胜者使用来自可视化对话[11]的对话作为额外的问题答案对和30个模型的集合。这些扩展可以应用于我们评估的任何模型,以提高性能。VQACPv2结果也可以使用专门的体系结构来改进,例如GVQA [4]和带有对立正则化的UPdn[46]。然而,它们在VQACPv2上的性能仍然很差,具有对抗性正则化的UpDn获得了42.04%的精度,显示出仅比非正则化模型提高了2.98%。

6. Discussion: One Model to Rule them All?

我们进行了第一次系统研究,以检查在合成数据集上工作的VQA系统是否推广到真实世界的数据集,反之亦然。这是我们项目的最初范围,但是当我们发现没有一种方法在数据集上运行良好时,我们感到震惊。这促使我们创造了一种新的算法。尽管比许多算法简单,RAMEN可以与其他方法竞争甚至超越。我们认为,一些最先进的架构可能被过度设计,以利用他们最初测试的领域中的偏差,导致在其他数据集上测试时性能下降。这让我们不禁要问,在一个特定的数据集上使用高度专业化的机制来获得最先进的结果,是否会导致该领域的重大进展,因为我们在概念上更简单的算法在没有这种机制的情况下,在自然和合成数据集上都具有竞争力。我们主张开发一种单一的VQA模式,能够很好地应对各种挑战。在持续学习范例中训练这个模型将会评估向前和向后的转移[17,27,42]。另一个有趣的途径是将VQA与相关任务相结合,如视觉查询检测[1]。无论如何,现有的算法,包括我们的算法,在展示视觉语言概念理解和推理方面还有很长的路要走。CVQA和VQACPv2的性能大幅下降证明,当前的算法在学习组合概念方面表现不佳,并且受到这些数据集偏差的影响,这表明依赖于表面相关性。我们观察到,专门为合成封闭世界场景开发的方法通常无法处理不受约束的自然图像和问题。尽管VQAv2和CLEVR的性能在这些基准上接近人类水平,但我们的结果显示VQA问题远未解决。我们认为,未来的工作应该集中在创建一个跨领域良好工作的模型上。在通用训练集上训练数据集,然后在多个测试集上评估它,每个测试集需要不同的技能集,这将是很有趣的。这样做将有助于寻找一个可以统治所有人的VQA模式。

7. Conclusion

我们的工作致力于为VQA算法设定一个新的标准:在自然场景和具有挑战性的合成基准上都有良好的性能。我们希望我们的工作将导致VQA未来的进步。

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第10张图片
【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集_第11张图片

你可能感兴趣的:(VQA,人工智能,计算机视觉,深度学习,vqa,自然语言处理)