[论文解读]Visual bert

visual bert

VisualBert 融合了bert 的目标检测系统如fast-rcnn,并且可以用于一系列的视觉和语言任务。

作者提出了两种训练视觉语言模型的预训练任务:

  1. 一部分文本被mask掉,根据剩余的文本和图像信息来预测被mask掉的信息。

  2. 模型来预测提供的文本是否和图片匹配。作者发现这种在图片标注数据上的预训练对于visualBert 学习文本和图像的表征非常重要。

visualBert的核心思想是使用self-attention 机制来挖掘文本和输入图片中图像区域之间的关系。

Input embedding:

visual embedding F来表示一个图片的信息。 F由三部分组成。

  1. 由CNN提取的视觉特征表征。

  2. segment embedding 来区分视觉embedding和图像embedding.

  3. positional embedding.原文中没有介绍具体是如何实现的

[论文解读]Visual bert_第1张图片
image-20210321205142815.png

Training tasks:

  1. masked language modeling with image.一些文本的输入被MASK,需要用其他文本预测,图像区域没有被MASK。

  2. sentence-image prediction。 1个文本的segment包含两个captions。一个是描述这个图片的,另一个是50%概率是一个描述该图片的caption,50%是随机写的描述。模型用于区分这两种情况。

Task-Specific Pre-Training: 在fine-tuning 下游任务之前, 使用图像目标训练masked language modeling有效。这样会是模型更好的适应新的目标。

实验方案:

作者尝试了几种方案

  1. 原始的visualbert 方案

  2. 使用在输入层融合图像和文本信息,或者是在后面的层融合图片文本信息。

  3. 是否进行在COCO数据集上进行预训练任务。

作者试下来还是VISUAL BERT效果最好。

作者的一些研究性分析:

1). Task-agnostic Pre-training: 作者研究了只在文本上进行预训练和在图像和文本上都进行预训练,发现在图像上进行预训练很重要

2). Early Fusion: 在早起的FUSION 十分重要

3). BERT Initialization:虽然使用语言模型的BERT初始化十分重要,但是没有之前想象的那么重要。

4). The sentence-image prediction objective 作者尝试去掉这个任务,发现影响相比于其他的两个任务不是特别大。

ATTENTION 权重分析:

作者分析了attention中的weight ,有一些有意思的结果,图片和视频中 的部分可以相互align。这种方法可以评估模型学到的东西有没有意义。

reference:

VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

你可能感兴趣的:([论文解读]Visual bert)