Biases and Reasoning Patterns in VQA 笔记

Biases and Reasoning Patterns in VQA笔记

  • 摘要
  • 一、Evaluating the bias dependency
  • 二、In search of reasoning patterns
  • 总结

写在前面
这是VQA2021 workshop的第三篇,内容不多,3页,最后一页为参考文献。
本文可以看做是CVPR2021上两篇文章的总结:
1、 Roses are Red, Violets are Blue But Should VQA expect Them To?
2、 How transferable are reasoning patterns in vqa?
从本文的趋势来看,虽然今年的大部分文章在 关注预训练,但是仍然有 专注于数据集bias的工作,再一个,后面工作的趋势必然是走 轻量化的路子,学术界咋还没影呢?
论文地址: Biases and Reasoning Patterns in VQA
代码:无~

摘要

上来就对一些依赖数据集biases的模型提出嘲讽

在这里插入图片描述
同时也点明了一些问题:VQA当中存在的大量的、无标签的以及缺乏有效标注的数据阻碍模型学习推理能力,同时也迫使模型依据现有的知识做出猜测,这对于模型泛化到现实世界毫无帮助
本文提出了研究该问题的两个方面:
1、当使用带有bias的样本时,如何评估模型的bias-dependency?
2、(顺藤摸瓜)能否找到VQA模型中推理的根据?

(这两个方面对应CVPR2021主会上的作者的两篇文章)

一、Evaluating the bias dependency

对于标准的VQA评估指标,采用的是有误导性的整体accuracy。问题和概念分布不平衡导致模型并未充分利用数据。目前例如 VQAcp v2 这种在训练集和测试集中引入人工设定的分布也并不是一个评估模型泛化性的好方法。原因在于
1、这种分布并未反映真实的单词倾向;2、由于这种分布是人工设定的,所以使得模型朝着这种特定的设置发展
因此,这种bias的评估本身就有问题
这里有个旁注:在ODD验证集中就能直接测试模型,意味着测试集的无用?
所以作者提出 GQA-OOD :比较了 rare、frequent 的问题对的精度,认为 rare 的问题对能更好的用于推理能力的评估(实验验证了)。同时作者也验证了类似于 Bert 这样的模型也未能解决包含不常见概念的问题。另外,现有的 减少 bias 的方法也未能奏效。
Biases and Reasoning Patterns in VQA 笔记_第1张图片

二、In search of reasoning patterns

通过作者提出的 GQA-ODD 方法能够衡量模型对数据biases的依赖,继而转向另外一个问题是否能找到VQA正在推理的证据?(换句话说,模型是不是真的在 根据数据进行推理 ,有没有根据其他东西在推理?)
作者在这里引出了推理的定义用来回答新问题的 词+视觉目标代数操作,即与利用训练数据中的虚假bias相反。所以接下来研究的是 oracle model(另一篇文章中提出的模型)内部注意力机制以及同 transformer 模型的对比。作者认为视觉中的不确定性是妨碍 vision-language 推理的主要因素(有网站支撑)
Biases and Reasoning Patterns in VQA 笔记_第2张图片
以上图举例:三中主要的注意力模式:
1、bimorph:两者不同类型的注意力分布均为同一head;
2、dirac: 信息在有限数量tokens上流动的局部注意力
3、uniform: 接近于平均操作,在tokens中没有区别
Biases and Reasoning Patterns in VQA 笔记_第3张图片
当比较不同模型跨模态注意力时,有很大不同,oracle 模型相比 transformer 能学到的更多更好推理模式。但由于 oracle 模型采用带真实标签的图像表示作为输入,所以从定义上来说仍不太适合于真实世界
剩下部分:作者论证了可以成功oracle 中的推理模式 迁移到基于 transformer 的模型中,且实验表明了这种迁移的泛化性以及能够减少对数据 bias 的依赖。另外,oracle迁移方法类似bert预训练方法之间是互补的。

总结

不长不短的文章,对于两个问题的说明,具体的还是去看作者给出的论文会更好点。
【1】 Roses are Red, Violets are Blue… But Should VQA expect Them To?
【2】 How Transferable are Reasoning Patterns in VQA?

你可能感兴趣的:(多模态研究,vqa,人工智能,自然语言处理,计算机视觉,深度学习)