Counterfactual Samples Synthesizing for Robust Visual Question Answering论文笔记

Abstract

尽管视觉问答（VQA）在过去几年中已经取得了令人瞩目的进步，但是当今的VQA模型倾向于捕获训练集中的表层语言相关性，而不能推广到具有不同QA分布的测试集中。为了减少语言偏见，最近的一些工作引入了一个辅助的仅问题模型，以规范化目标VQA模型的训练，并在VQA-CP上实现主导性能。但是，由于设计的复杂性，当前的方法无法为基于集成模型的模型配备理想VQA模型的两个必不可少的特征：1）视觉可解释的：模型在做出决策时应依赖正确的视觉区域。 2）对问题敏感：该模型应对所讨论的语言变化敏感。为此，我们提出了一种与模型无关的反事实样本合成（CSS）训练方案。 CSS通过掩盖图像中的关键对象或问题中的单词并分配不同的真实答案来生成大量反事实训练样本。在使用补充样本（即原始样本和生成的样本）进行训练后，VQA模型被迫专注于所有关键对象和单词，从而显着提高了视觉可解释性和问题敏感性能力。作为回报，这些模型的性能将进一步提高。广泛的消融显示了CSS的有效性。尤其是，通过在LMH模型[14]的基础上构建，我们在VQA-CP v2上实现了创纪录的58.95％的性能，并提高了6.5％。

1. Introduction

目前的VQA模型严重依赖于表层语义相关性（语言偏见，这里也可以说是存在答案分布的偏见），因此在18年提出了新的基准数据集VQA-CP，这个数据集的训练集和测试集的答案分布是不同的，尽可能消除了偏见，很多之前准确率高的模型的准确率大幅下降。

现有解决偏见的模型是基于组合式的模型，可以分为两种类型：

1) adversary-based 基于对抗的

最小化VQA模型的损失，同时最大化仅问题模型的损失。由于两个模型被设计为共享相同的问题编码器，因此基于对抗的方法旨在通过学习与偏差无关的问题表示形式来减少语言偏差。不幸的是，对抗训练方案将明显的噪声引入了梯度，并导致了不稳定的训练过程。

基于对抗方法的文献：

Overcoming language priors in visual question answering with adversarial regularization.

Adversarial regularization for visual question answering

Don’t take the premise for granted: Mitigating artifacts in natural language inference.

2) fusion-based 基于融合的

在后期融合了两个模型的预测答案分布，并基于融合答案分布得出训练梯度。 基于融合的方法的设计原理是让目标VQA模型更多地关注“仅问题”模型无法正确回答的样本。

基于融合方法的文献：

Rubi: Reducing unimodal biases in visual question answering

Don’t take the easy way out: Ensemble based methods for avoiding known dataset biases.

Simple but effective techniques to reduce biases.

上述方法不能同时增加VQA的两个必要属性：

1、视觉可解释性：模型应该更加注意与问题更相关的视觉区域，也就是针对正确的区域做出决定，如下图(a)中所示，虽然两个模型都做出正确的答案，但是两个模型参考的视觉区域却是不同的，这无法解释为何得到正确答案。

2、问题敏感度：模型应该对所讨论的语言变化敏感，也就是说应该注意问题的敏感词（重要的词），当敏感词变化的时候，得到的答案应该变化，模型的处理也应该有变化。如下图中的(b),当颜色属性的主体从“行李”变到了"汽车"，答案却并不变化，说明模型没有意识到“敏感词”的变化。

作者提出了与模型无关的反事实样本合成（CSS）训练方案，这个CSS方案可以合成到其他模型内，可以有效提高模型的视觉可解释性和问题敏感度，CSS由两种不同的样本合成机制组成：V-CSS和Q-CSS。对于V-CSS，它通过掩盖原始图像中的关键对象来合成反事实图像。意味着这些对象对于回答某个问题很重要（例如，“男人的领带是什么颜色”问题的对象）。然后，反事实图像和原始问题组成了一个新的图像问题（VQ）对。对于Q-CSS，它通过使用特殊标记“ [MASK]”替换原始问题中的关键单词来合成反事实问题。同样，反事实问题和原始图像构成了新的VQ对。给定一个VQ对（来自V-CSS或Q-CSS），标准的VQA训练样本三元组仍需要相应的真实答案。为避免昂贵的人工注释，设计了一种动态答案分配机制，以近似所有合成VQ对的真实答案（例如，图2中的“非绿色”）。然后，我们使用所有原始样本和合成样本训练VQA模型。经过大量补充样本训练后，VQA模型被迫专注于关键对象和单词。

实验证明该策略的有效性，并在模型LMH的基础上加上CSS达到了58.92%的准确率，这是VQA-CP目前的最高纪录。

2. Related Work

（1）Language Biases in VQA.

很多的工作已经证实语言偏见的存在,解决语言偏见的方法有两种，

平衡数据集减少偏见，想法如针对所有二元问题收集了具有相反答案的互补抽象场景。针对所有问题都收集相反的互补抽象场景，这一定程度上减少了偏见，但是仍然可以利用问题的统计偏差[3]。如基准VQA-CP所示，与这些“平衡”数据集相比，许多模型的性能明显下降。在本文中遵循相同的数据集平衡精神，并使用更多互补样本来训练VQA模型。并且不需要额外的人工标注。
设计模型减少偏见，目前最好的模型是基于集成的模型，CSS可以无缝地结合到基于ensembl的模型中，以进一步减少偏差。

（2）Visual-Explainable Ability in VQA Models

为了提高视觉解释能力，早期的工作直接将人的注意力作为指导来指导模型的注意力图。但是，由于存在强烈的偏见，即使有适当的注意力图，网络的其余层仍可能会忽略视觉信号。 因此，一些最近的工作利用Grad-CAM获得每个对象的独自的贡献来纠正答案，并鼓励所有对象贡献的等级与人类注释相一致。不幸的是，这些模型有两个缺点：1）它们需要额外的人工注释。 2）训练不是端到端的。

（3）Question-Sensitive Ability in VQA Models.

如果VQA系统确实“理解”了问题，那么它们应该对所讨论的语言变化敏感。具体来说，设计了两个双重任务之间的周期一致损耗，并利用采样的噪声生成各种问题。但是，仅考虑了不同问题改写的鲁棒性。相反，我们也鼓励模型在更改一些关键词时感知问题的差异

（4）Counterfactual Training Samples for VQA.

一些并行的工作也尝试为VQA合成反样本。与这些都依赖于GAN生成图像的工作不同，CSS仅掩盖了关键的对象或单词，这更容易且更易于采用。

3. Approach

目前将VQA任务是当做一个多类别的分类任务，不失一般性，给定一个数据集 $D=\{I_i,Q_i,a_i\}_i^N$ ，三元组，图片 $I_i\in I,$ 问题 $Q_i \in \mathbb{Q}$ 和答案 $a_i \in A$ ,VQA任务学习映射 $f_{vqa}:I\times \mathbb{Q}\rightarrow [0,1]^{|A|}$ ,对于给定的图片-问题对给出答案分布。在本节中，首先介绍基本的自底向上自顶向下模型[4]，以及3.1节中基于ensembl的去偏方法。然后，我们将在第3.2节中详细介绍反事实样本综合(CSS)。

3.1. Preliminaries

Bottom-Up Top-Down (UpDn) Model. 对于一张图片，图片编码器可以输出对象特征的集合 $V=\{v_1,\dots v_{n_v}\}$ ,其中是第i个对象特征，对于每个问题Q,模型使用一个问题生成器输出单词特征的集合： $Q=\{w_1,\dots w_{n_v}\}$ ,其中是第i个单词的特征。将特征V和Q输入到模型 $f_{vqa}$ 来预测答案分布：

模型 $f_{vqa}$ 一般包括注意力模块，以交叉熵损失训练模型。

Ensemble-Based Models. 由于以对抗形式的集成模型不稳定，所以介绍以融合方法为基础的模型，引入一个只需要问题的模型,模型只需要输入问题就预测答案(忽略图片特征的输入)：

然后将模型和正常模型的答案分布进行结合(相乘)得到一个新的答案分布 $\widehat{P}_{vqa}(a)$ ,

在训练阶段，损失函数是根据 $\widehat{P}_{vqa}(a)$ 来计算，训练梯度的反向传播是要通过和 $f_{vqa}$ ，在测试阶段只有 $f_{vqa}$ 。

3.2. Counterfactual Samples Synthesizing (CSS)

CSS包括三个主要的步骤，

以初始的三元组训练模型
通过V-CSS合成反事实样本和Q-CSS反事实样本.
用反事实样本训练模型

对于每个训练样本,我们只使用一个特定的合成机制（意思就是一个样本要么使用V-CSS要么使用Q-CSS）,δ是权衡值。

3.2.1 V-CSS

根据算法2中显示，V-CSS包含个步骤：初始化对象的选择( $IO\_S{EL}$ ),对象局部贡献的计算，重要对象的选择(CO_SEL)，动态分配答案((DA_ASS)，

1. Initial Objects Selection (IO_SEL).

由于图片中的对象只有一小部分跟问题是相关，所以需要选择出与图片有关系的一个小的对象集合,想法就是首先用SpaCy POS标签给问题中每个单词一个标签，从中选择出名词，计算对象类型与名词的cosine相似度，选择出其中相似度最高的作为集合。

2. Object Local Contributions Calculation.

得到对象集合后，计算那个对象对于回答问题更有作用，利用修改的Grad-CAM来获得哪个对象的的贡献最大，

其中 $P_{vqa}(a)$ 代表的正确答案a的预测概率，代表第i个视觉特征，越高则的贡献越大。

3. Critical Objects Selection (CO_SEL).

计算完集合内所有对象的贡献后，选择其中贡献最大的K个(score最高的K个)，K由以下公式决定：

其中 $\eta$ 是一个常数，以下所有试验都将 $\eta$ 设置为0.65。然后是的绝对补集，即 $I^-=I \setminus I^+$ 。

4. Dynamic Answer Assigning (DA_ASS).

对于反事实视觉输入和原始问题输入构成新的问题视觉对，为了分配正确的答案，首先将输入到VQA模型内，然后得到 $P^+_{vqa}(a)$ ,根据 $P^+_{vqa}(a)$ 选择概率值最高的K个答案为集合。然后将剩余的作为,最极端的情况就是包含所有的正确答案，则内不包含正确答案，相当于一个空集。这个方法的动机就是可以正确预测答案，则就不应该再包含原本问题中的正确答案了。

3.2.2 Q-CSS

根据算法2中，Q-CSS包含四步，计算每个单词的贡献，选择其中最重要的单词，动态地分配答案。

1. Word Local Contribution Calculation.

以下公式计算每个单词的贡献率：

2. Critical Words Selection (CW SEL.)

首先提取能够代表每个问题类型的单词（What color is the kite?中的what color），然后选择K个除了问题类型单词的分数最高的单词当做最重要的单词，然后将重要的单词替换成'[mask]'后得到。而就是将除了类型单词和重要单词以外的单词替换成[mask]，

3. Dynamic Answer Assigning (DA_ASS.)

与V-CSS这一步骤相同，这一步骤DA_ASS的输入是.

4. Experiments

首先是消融实验，集合I的大小、关键字的个数、参数 $\eta$ 的大小。

你可能感兴趣的:(VQA2019)

LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不