ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿

背景知识

  预训练模型后再finetune已经在cv和nlp领域证明了其可行性,同样的,这种方式在视觉和语言结合的多模态领域也能够带来一定的提升。预训练的方式可以是有监督和自监督。比如说,谷歌很多的图像分类任务都是在自己的巨大数据集JFT上预训练之后,再在imagenet上finetune。而nlp领域,bert类模型都是在大量网络上爬取的语料上进行自监督的方法预训练。目前,多模态领域也已经有了很多研究关注预训练后再在具体任务上进行微调,也证明了这种方法的有效性。(VLP代表的就是vision and language pretrain.)

VLP

  作者针对目前已有的VLP方法进行了总结,分析了之前的方法,发现文本embedding使用的方式都是使用一个简单的linear embedding,而视觉embedding的方法有以下几种方法:一种是目标检测之后,使用region proposal的方式从cnn提取出来的特征中提取出物体的特征,第二种是直接使用cnn提取出来的特征,第三种也是作者提出的方法,仿照ViT的方式,将图像分割为patch后使用linear embedding转化为特征。使用这种方式的话,视觉特征提取的网络backbone就比较轻量。速度相对也会比其他几种方法更快。
  此外,作者还将这几种方法抽象出了更简易的表示方式。分为以下四个种类:1.视觉特征提取模块的计算消耗大于文本的计算消耗大于融合的计算资源。2.视觉特征提取模块和文本特征提取模块的特征提取相等并大于融合的计算资源。3.视觉特征的提取计算资源大于融合消耗的计算资源大于文本特征提取的计算资源。4最后一种,也就是作者提出的,融合消耗的计算资源大于文本和视觉特征提取消耗的计算资源。
  在关键信息提取任务中,layoutlanguagemodel就是第一种情况。(多模态的融合的计算消耗很大。)

贡献

  作者提出了个简单并且快速的视觉文本模态融合预训练模型,并且能够达到不错的结果。此外,他还证明了整个单词mask和图像增强的有效性。

ViLT

  与之前使用Bert来初始化transformer encoder不同,这篇工作使用了ViT来初始化。文本和图片转换为向量后,除了加入位置信息之外,还会加入种类token来表明是文本特征还是图像特征。位置,种类和原本的特征相加起来送入Transformer encoder。最后的内容特征会通过一层pooling后用来判断图片和文本是否匹配。图片和文本是否匹配的训练方法就是以0.5的概率随机替换掉匹配的图片,来预测文本和图片是否匹配。mask language model预测的是mask掉的整个单词,而不是之前那种只mask一小部分。和之前视觉文本模态融合预训练不同,这篇工作还加入了了图像增强,证明了图像增强确实能带来增益。

实验

  速度十分的快的情况下,精度减低得并不多。消融实验证明了整体单词mask,图像文本匹配和图像增强的有效性。

你可能感兴趣的:(论文)