ViLBERT:视觉语言多模态预训练模型

ViLBERT (Vision-and-Language BERT)是一个视觉语言预训练模型,用于学习任务无关的图像内容和自然语言的联合表征。作者将流行的BERT架构扩展成一个双流多模态模型,可以在两个独立流中分别处理视觉和文本输入,并通过共同注意力transformer层进行交互。作者利用两个代理任务,在自动收集的大型Conceptual Captions数据集上对模型进行预训练,然后对其基础架构稍作调整便迁移到现有视觉语言任务上——视觉问答(VQA,Visual Question Answering)、视觉常识推理(VCR,Visual Commonsense Reasoning)、Referring Expression、图像检索(Image Retrieval)。与现有模型相比,ViLBERT在所有四项任务上都达到了最先进的水平。ViLBERT不再把学习视觉和语言之间的groundings仅作为任务训练的一部分,而是将Visual Grounding视为一种可预训练、可迁移的能力。

注:Visual Grounding或Referring Expression是一项视觉语言理解任务,旨在根据特定的查询短语定位到图像中的某个区域。

ViLBERT:视觉语言多模态预训练模型_第1张图片

ViLBERT模型由两个平行的视觉(绿色)和语言(紫色)处理流组成,并通过新的共同注意力transformer层进行交互。这种结构允许每个模态拥有不同深度,并通过共同注意力机制实现稀疏交互。图中虚线框表示重复的层块。

ViLBERT:视觉语言多模态预训练模型_第2张图片

作者提出了一种新的基于transformer架构的共同注意力机制。这种结构通过在多头注意中交换键值对,使得视觉参与的语言特征能够融入到视觉表征中(反之亦然)。

ViLBERT:视觉语言多模态预训练模型_第3张图片ViLBERT:视觉语言多模态预训练模型_第4张图片

作者利用掩码多模态学习、多模态对齐预测两项训练任务,在Conceptual Captions数据集上对ViLBERT进行训练,以学习Visual Grounding。在掩码多模态学习中,模型必须基于给定的观测输入,为掩码输入重建图像区域类别或单词。在多模态对齐预测中,模型必须预测图像标题是否准确描述图像内容。

ViLBERT:视觉语言多模态预训练模型_第5张图片ViLBERT:视觉语言多模态预训练模型_第6张图片

ViLBERT:视觉语言多模态预训练模型_第7张图片

作者将ViLBERT迁移到VQA、VCR、Referring Expression、Image Retrieval四项视觉语言任务上,并与现有模型的结果进行了比较,ViLBERT在所有任务上都达到了最先进的水平。

ViLBERT:视觉语言多模态预训练模型_第8张图片

上图展示了预训练之后,微调之前,利用ViLBERT模型对采样图像进行描述的定性示例。

总结

作者开发了一个图像和文本的联合模型——ViLBERT,并在自动收集的大型数据集上对模型进行了预训练,以学习Visual Grounding。ViLBERT引入了一种新的双流结构,该结构具有共同注意力transformer块,并且在迁移到现有视觉语言任务上时,其性能达到了最先进的水平。此外,将ViLBERT迁移到上述任务是简单易行的——只需为每个任务添加一个分类器即可。未来,ViLBERT有潜力扩展到其他视觉语言任务(包括生成任务)以及多任务学习上,令人期待。

ViLBERT:视觉语言多模态预训练模型_第9张图片 

你可能感兴趣的:(ViLBERT:视觉语言多模态预训练模型)