CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记

目录

  • 简介
  • 动机
  • 方法
  • 实验

简介

本文出自张含望老师课题组。
论文链接

动机

文章的第一句就说明了本文的动机,也就是,本文提出了一个新颖的注意力机制,可以消除现有的基于注意力的视觉语言方法中的混杂效应。

混杂效应会造成有害的bias,误导注意力模块学到数据中的虚假相关,从而降低模型的泛化性。

由于混杂是不可观测的,所以作者使用了前门调整策略实现因果干预。

方法

现有的方法中通常是建模公式1:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第1张图片
作者认为,应该建模 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Ydo(X))。但是由于混杂的存在, P ( Y ∣ d o ( X ) ) ≠ P ( Y ∣ X ) P(Y|do(X)) \ne P(Y|X) P(Ydo(X))=P(YX)。又混杂是不可观测的,无法使用后门调整,所以使用了前门调整,得到公式3:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第2张图片
从公式3中可以看出,此方法的难点在于如何建模IS-Sampling和CS-Sampling。作者使用NWGM近似法在特征层面上对它们进行建模,避免了采样带来的昂贵计算。
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第3张图片
更进一步,可以使用Attention中的QKV模式建模IS-Sampling和CS-Sampling:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第4张图片
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第5张图片
对IS-Sampling和CS-Sampling完成建模后,即可以使用IS-ATT Block和CS-ATT Block替换传统Attention方法中的Block。
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第6张图片


实验

在Image Captioning上的结果:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第7张图片
应对Bias的性能提升:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第8张图片
在VQA上的实验结果:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第9张图片
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第10张图片
对预训练模型的提升:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记_第11张图片


你可能感兴趣的:(#,visual,BERT,CVPR2021,VL,Causal,Effect,VQA)