Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记

现代视觉问答(VQA)模型已被证明严重依赖于训练期间所学的问答词之间的表面关联性,而与图像无关。本文提出了一个新的规则化方案,以减少这种影响。引入了一个仅问题模型,它将来自VQA模型的问题编码作为输入,并且必须利用语言偏差来获得成功。然后,将训练过程视为VQA模型和这个仅问题的对手之间的一场对抗性游戏,阻止VQA模型在其问题编码中捕捉语言偏差。此外,在考虑图像后,利用此仅问题模型来估计模型置信度的增加,以鼓励视觉背景。
一、文章引入
回答有关视觉内容的问题的任务称为视觉问答(VQA),提出了一系列丰富的人工智能挑战,涉及计算机视觉和自然语言处理。成功的VQA模型必须理解自然语言中提出的问题,识别图像中的相关实体、对象和关系,并执行基于基础的推理来推断正确的答案。为了应对这些挑战,近年来在数据集管理和建模方面对VQA进行了大量的工作。
对VQA的广泛兴趣导致了越来越复杂的模型在越来越大的基准数据集上获得越来越高的性能;然而,最近的研究表明,许多模型往往具有较差的图像基础,相反,大量利用训练数据集中问题和答案之间的表面相关性来回答问题。结果,这些模型往往表现出不正确的行为——盲目地根据问题的前几个词输出答案,因为它们的测试数据集中存在相同的强语言先验性。
在VQA中,语言优先权的一个直观的衡量标准是“盲”模型的性能,该模型只给出问题的答案,而不给出相关的图像。在这篇论文中,作者对这种直觉进行了整理,引入了一种新的正则化方案,针对仅问题的对立面设置了一个基本的VQA模型,以减少语言偏见的影响。
更具体地说,作者认为VQA中不希望出现的语言偏见是问题与从训练数据集学习到的可能答案之间的过分具体的关系,即那些可以使仅问题模型在没有看到图像的情况下实现相对较高性能的问题;以及明确优化了基本VQA模型中的问题表示,使其对仅问题的对抗性模型没有帮助。在这种对抗机制中,仅问题的模型经过训练,可以根据基本VQA模型提供的问题编码尽可能准确地回答问题;同时,对基础VQA模型进行了训练,以调整其问题编码器(通常实现为递归语言模型),在保持其自身VQA准确性的同时,将仅问题模型的性能降至最低。此外,利用仅问题模型来提供基于图像的可微分概念-考虑图像后模型置信度的变化-明确地将其最大化用于VQA模型。因此,本文的目标由一个只有对抗性的问题和一个熵差组成。
二、模型简介
除了结构细节外,绝大多数VQA模型都遵循一套类似的设计原则——首先为图像和问题生成向量表示,然后将它们组合起来预测答案(通常通过复杂的注意力机制)。然而,当语言偏差相当大时,问题特征可能已经足够具有区分性,并且模型可以学习忽略视觉信号而不会在训练过程中面临重大损失(例如,“天空是什么颜色的?”?“总是映射到”蓝色“)。这种无法在图像中找到答案的模型,对于带有类似偏差的基准数据集来说可能是可以接受的;然而,在现实世界中,到处都是棕色的草地和灰色的天空,它的用处将受到严重限制。本节通过显式降低问题特征的区分能力来解决这个问题-引入一对对抗性正则化器,这两个正则化器会惩罚单独的对抗性网络只从问题编码中预测答案的能力。
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记_第1张图片
图1:给定一个任意的基础VQA模型(A),引入两个正则化器。首先,构建一个仅问题的对手(B),该对手从VQA模型中获取问题嵌入qi,并接受训练,仅通过问题嵌入输出正确的答案。为了使这个网络成功,qi必须从数据集中捕获语言偏差,这些偏差导致基础VQA模型忽略视觉内容。为了减少这些偏差,将基础VQA模型和仅问题进行对抗训练,而基础VQA网络修改了其问题嵌入以降低仅问题的性能(此处显示为仅问题模型损失的梯度求反) 此外,仅问题模型允许估计给定图像的答案置信度的变化(C),将其明确最大化。

Base VQA Model给定数据集D = {Ii,Qi,ai} Ni=1,由三元组图像Ii∈I,问题Qi∈Q和答案ai∈A组成,VQA的任务是学习映射在这里插入图片描述在给定输入问题图像对的情况下在答案空间上产生准确的分布。
在不损失一般性的情况下,考虑可微分映射操作f,可分解为问题编码和图像编码在这里插入图片描述(如图1A所示)。将这类模型的实例i的预测写为
在这里插入图片描述
把图像和问题嵌入分别表示为vi和qi。图像编码器h(·)通常是一个固定的CNN,用于分类或检测,而问题编码器g(·)通常是训练过程中学习到的单词或字符级RNN的某种形式。这些模型用标准交叉熵进行训练,优化参数以使ground truth数据最小化(2)。
在这里插入图片描述
Question-Only Model VQA语言先验能力的一个直观度量是模型仅从问题中做出低错误答案预测的能力。将仅问题模型形式化为一个映射fQ。如上所述,对学习到的问题编码进行运算,以便fQ进行预测
在这里插入图片描述
将此模型参数化为简单的两层神经网络,如上所述,可以利用交叉熵训练该模型,从而最大程度地减少
在这里插入图片描述
2.1 Adversarial Regularization with a Question-Only Adversary
对于(1)中给出的任何形式的模型,现在可以引入一个简单的对抗性正则化器,通过修改问题编码器来减少语言偏差的影响,从而使该仅问题模型的性能最小化。具体地说,给定一个分解为f、g、h的VQA模型,连接问题模型fQ,使得fQ将问题编码器g(·)产生的编码作为输入(如图1所示),并为两个网络建立相反的损耗。
Learning the Question-Only Adversary在(4)中训练仅问题模型fQ以使交叉熵损失LQ最小。 但是,问题编码器g(·)中的参数并未针对此损失进行更新。实际上,如果问题编码器g(·)从基本VQA模型生成了问题编码,这会迫使fQ尽可能好地执行。
Adversarial Regularization for VQA由于仅问题模型的性能充当问题编码qi = g(Qi)中表示的语言偏差的代理,因此减少偏差表示的一种方法是调整g(·),使得仅问题模型的性能较差 。 这样可以将仅问题(fQ)和基本VQA模型(f,g,h)之间的这种对抗关系写为
在这里插入图片描述
我们注意到,在实践中,使用这种对抗性正则化器的训练可以通过简单的梯度否定问题来实现,如图1所示。具体地说,通过问题编码器反向传播在qi处累积的LQ(fQ,g)梯度的负值,以最大化LQ(fQ,g)的方式更新问题编码器。
上式中的正则化系数λQ≥0控制了VQA性能与语言偏差减少之间的权衡。对于较低的λQ值,几乎没有正则化发生,并且基本模型继续学习语言偏差。另一方面,较大的λQ值迫使模型消除所有有区别的语言偏差,导致基本VQA模型和仅问题模型的VQA性能都很差-本质上甚至剥夺了基本问题类型信息的问题编码(例如,未能学习“什么颜色…”?问题需要彩色答案)。
2.2 An Adversarial Difference of Entropies Regularizer
由于这种对λQ的高值进行过度正则化的效果突出显示,仅问题模型并未捕获VQA中语言偏见的全部细微差别。 提出问题“天空是什么颜色?” 事先可以将答案设为“蓝色”是合理的,但至关重要的是,此信念应根据观察结果进行更新-即,在查看图像后,答案的分布应更加清晰。
为了捕捉这种直觉,本文引入了另一个对抗性正则化器,对应于给定图像的基本VQA模型预测和仅问题模型预测之间的熵差异
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记_第2张图片
这个正则化器类似于给定问题I(A;I | Q)的答案和图像之间的条件互信息(CMI);但是,fQ(q)不被限制为f(v,q)的边缘,因此用这种方式估计CMI是不明确的。

然后可以用LMI更新(5)中f和fQ之间的对抗关系
在这里插入图片描述
其中λH≥0控制熵正则化器差异的强度。尽管LH是f,g,h和fQ的函数,但仅基于此损失更新问题编码g的参数。 否则,fQ可以学习从任意问题特征中产生尖锐的输出分布,以最大程度地减少LH。 同样,f或h可以轻松调整以产生任意峰值输出,这会导致明显的过拟合。
如前所述,考虑到g(·)中的问题嵌入,仅问题的对手fQ仍必须尽可能好地执行,但现在对该嵌入进行了额外调整,以最大化fQ输出的熵,同时最小化VQA模型的熵。
三、实验结果
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记_第3张图片
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记_第4张图片
四、结论
本文提出了一种新颖的对抗正则化方案,用于基于仅问题的对手和处理图像后模型置信度的差异,减少VQA中数据集偏差的记忆。 在VQA-CP数据集上进行的实验表明,该技术使现有的VQA模型可以在先验变化的情况下显着提高性能。 本文的方法可以实现为现有VQA模型之上的一个简单的嵌入式模块,并且可以轻松地从头进行端到端的培训。

你可能感兴趣的:(Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记)