[1][2][3] 三篇论文均针对当前VQA模型鲁棒性差这一问题,借鉴因果推理中思想生成反事实样本用于模型训练以提高其鲁棒性。三者的区别在于,[1]建立了反事实的框架,通过学习外部变量的分布,并在此分布上进行采样来得到反事实样本,其contribution在于此框架。[2]对图像进行语义编辑生成逼真的反事实图像,所生成的图像一方面可以用于测量模型的鲁棒性,一方面可以用于训练模型以提高模型鲁棒性,其contribution在于语义编辑的方法及相应的数据集。[3]设计了模型无关的反事实样本训练策略,对图像中的critical object,问题中的 critical word 进行屏蔽(mask)以得到反事实样本用于模型训练,其contribution在于此训练策略。下午讨论得到的一个启发是反事实样本生成的思想或许可以用于异常事件检测,通过定位critical object并进行相关干预操作,得到反事实的样本,以帮助模型更好的理解什么是异常,异常和正常的主要区别是什么。
[4] 针对当前视觉注意力数据集视角受限的问题提出了沉浸式问题导向的视觉注意力(Immersive Question-Directed Visual Attention)数据集并对其中的 visual attention 进行了分析。下午讨论得到的启发是,我们在做后续的video QA等任务时,可以从解决 ‘Missing important cues’, ‘Looking, but not seeing’, ‘Wrong timing’ 等问题入手。
[1] Counterfactual Vision and Language Learning.
[2] Counterfactual Samples Synthesizing for Robust Visual Question Answering.
[3] Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing.
[4] Fantastic Answers and Where to Find Them Immersive Question-Directed Visual Attention.
简述
1.做的是image captionning
2.针对的是image captionning里的Self-Att Net
3.要往上加Normalization和Geometry-Aware
存在问题(动机)
1.内部协变量漂移:输入分布会变,(原本的LN只用在SA模块外面)
本文的解决方法:把LN融合进SA模块/把norm放到注意力模块中),即SA->NSA
2.未对几何关系建模:
原因:图像被提取为特征bag后传入自注意网络不能很好地保留几何/位置信息
常见解决方法:往元素上加绝对位置(借鉴对sentence的处理,在1D的句子中做的很好,但是绝对位置不足以反映2D的几何关系)
本文的解决方法:扩展注意力权重:contendbase & geometric bias(几何+内容)
贡献
1.将归一化技术加到了自注意力机制里面
2.显式地利用几何关系和内容信息一同来辅助理解图像
3.这个method是通用的
简述
一个用于组合式目标指代物理解的新数据集和任务
存在问题(动机)
做V&L问题的动机:需要高水平推理的视觉任务(VQAVD)是实现人工智能的先决条件
做数据集的动机:现在的一些公开数据集并不能很好地检验模型的理解和推理能力。原因:
1.现存数据集通常仅描述对象的一些简单的独特属性,没有复杂的逻辑推理关系;
2.图片中仅包含有限的干扰信息,仅包含一两个和目标区域同类别的区域。
3.数据集bias 有人试图解决,但用的是合成数据集合成数据的缺陷:失去了现实世界语义丰富性。
贡献
本文提出的解决方案:做一个新的数据集
1.新的文本生成引擎:组合各种推理逻辑和丰富的视觉特征,来产生不同的组成复杂度的文本描述。
2.新的测试设置: 在测试过程中添加语义相似的视觉图像进行干扰 目标:把无推理的跨领域对齐的模型(蒙对)的正确概率降到最低
简述
用于联合指向性目标检测和目标分割的多任务协同学习
存在问题(动机)
领域现状:相互独立
虽然有把他们(指向性目标检测(REC)和指向性目标分割(RES))放在一起做的,但其本质是将单任务的网络用后端的MaskRCNN联合。
为什么要联合?RES可以帮助REC实现更好的语言-视觉对齐,同时REC可以帮助RES更好的定位所指对象。这两个任务之间高度趋近且能够互相促进。 这样的多任务尝试在计算机视觉领域已经非常成功,即实例分割(Instance Segmentation)。
联合时的困难:预测分歧。预测分歧其实也会存在于实例分割当中,比如框出来的物体没有被分割出来,但对于任务本身的目的而言,这个问题不会显得那么严重。而这个问题在语言指导下的RES和RE中则会变得不可接受。
贡献
1.提出MCN网络。网络结构:V&L编码器共享,RES&REC推理分支相对分离。
2.解决关键问题(预测分歧)。解决预测分歧的方法: CEM协同能量最大(强迫两个任务在相似的视觉区域进行)、ASNL自适应软非定位区域抑制(根据REC的预测,抑制了RES中不相关区域的响应)
3.极高的性能
[1][2][3]三篇论文均与video grounding有关,但是面向三个不同的task,三个task分别是Video Grounding(简称VG)、Video Object Grounding(简称VOG)和Video Captioning(简称VC)。
[1]针对VG领域正负样本不均衡问题,仿照目标检测方法FCOS,回归每一帧与ground truth中起始帧和结束帧的距离。在本文方法下,训练过程中可以将起始帧和结束帧之间的所有帧作为正样本,扩充了正样本数据。[1->9]和[1->17]是[1]中的第9篇和第17篇参考文献,分别出自ICCV2017和EMNLP2018。在[1->9]中,VG任务被称作Temporal Activity Localization by Language(简称TALL)。[1->9]和[1->17]中,均将VG问题视为一个选择最优proposal的问题。[1->9]中使用多尺度的滑动窗口对每个视频进行采样,将它们作为输入,并将分数最高的窗口作为预测结果。[1->17]中使用不同的Context moments作为输入,预测它们的分数。[1]与这两篇参考文献的区别在于,抛弃了传统的在video上进行clip得到多个proposal,预测proposal的分数选择最优proposal的方法。直接基于每一帧回归出一个box,再对n(视频帧数)个boxes进行择优选择。既然[1]能够将FCOS移植到VG领域,其实一些关键点检测的方法应该都能适用,但是这一类idea的水平并不高。
[2]针对VOG领域中,模型无法学习object之间的时空关系的问题,通过对比采样和时空连接构造了新数据集ASRL,并基于此数据集提出了VOGNet模型。文中提到,现有方法无法学习object之间的关系,是因为有两点约束不能满足。①是带有object-level标注的大规模视频数据集。②是每个视频应包含同一类别的多个实例,以免模型可以通过简单的detection即可找到referred objects。下午的讨论,受到的一点启发是,在V&L领域,数据集的标注和规模可能还不尽人意,找到数据集存在的问题,并通过一些方法解决问题,才是上上之策,而非针对数据集的问题,构造新的数据集。
[3]针对VC领域现有方法的visual grounding不准确的问题,提出显式建模objects之间的时空关系,并使用知识蒸馏对特征进行去噪。看完本文,一个直观的想法是,显式建模的方法(或矩阵)应有多种,理论上,应存在更好的建模方法。但是,如何证明其他的建模方法是更优的有待思考。这一观点和前段时间与武老师讨论的在V&L中使用流形的思想,如何证明双曲空间比欧式空间更适合V&L任务,有点相似,我觉得这两个问题是类似的。当然,针对[3]而言,一个更好的想法应是,提出一个比本文方法更好的,能够提升visual grounding准确性的方法。
[1] Dense Regression Network for Video Grounding
[1->9] TALL: Temporal Activity Localization via Language Query
[1->17] Localizing Moments in Video with Temporal Language
[2] Video Object Grounding using Semantic Roles in Language Description
[3] Spatio-Temporal Graph for Video Captioning with Knowledge Distillation