视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag

摘要

本篇论文的作者来自于佐治亚理工学院、俄勒冈州立大学、Facebook AI 研究院。本文提出ViLBERT(Vision-and-Language BERT),该模型用来学习任务无关的图像和自然语言联合表征。ViLBERT在BERT的基础上拓展为多模态的双流模型,在各自的流中处理图像和文本输入,这两个流通过Co-attention transformer层进行交互。ViLBERT应用到下游任务时仅需对基础架构进行少量的调整,实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。ViLBERT代表了一种转折:从将学习视觉和语言之间的基础知识仅作为具体任务的一部分,转向把视觉基础知识(visual grounding)作为一种可预训练和可迁移的能力。

动机

视觉理解任务使用的主要策略是先基于其他大规模任务分别预训练视觉和语言模型,然后将其作为具体任务的一部分基础知识。然而,①这种方案学习到的基础知识并不牢靠,当visiolinguistic data有限或者有偏时(biased),模型的泛化能力很差
此外,②在单模态数据上学习的近乎完美的表征,往往忽略了与其他模态之间的联系。比如,即使狗品种分类的视觉表征是完美的,但在下游任务中模型若无法将该视觉表征与形如"小猎犬"或"牧羊人"这样的近似短语进行关联,这种完美的视觉表征也是近乎无用的。

贡献

本文提出的ViLBERT是一个能够从视觉-语言数据集中学习到任务无关的视觉基础知识的联合模型。本文的关键创新点在于提出一种双流机制,即分别面向视觉和语言的流。该双流能够在共注意力transformer层进行交互该结构能够适应每种模态的不同处理需求,并在不同表示深度上提供模态之间的交互。实验结果表明,该结构优于单流统一模型。

架构

视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag_第1张图片

ViLBERT的双流结构。视觉特征(绿色分支)和文本特征(紫色表示)如上图所示,每个流都由一系列的transformer blocks(TRM)和co-attention transformer layers(Co-attention)组成(蓝色框所示)。双流间有信息交互的层数是严格限定的(这里共交互k次)。视觉特征由成熟的目标检测手段提取到的visual embedding后可直接使用,而文本特征需要多经过几层处理后才与视觉特征交互(红色框部分)。为保证总的处理层数是L,处理文本特征的层数为L-k。
视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag_第2张图片
上图左侧是经典的transformer encoder结构,右侧是本文对transformer的改进,将传统的K、Q、V模式的multi-head self-attention改成了multi-modal co-attention形式。
本文为什么没有直接做最简单的改动?(将视觉特征空间通过聚类进行离散化处理,再将视觉特征视为token,与文本特征加和作为输入,做成单流的形式)
理由有三:
①初始化的聚类可能造成错误的离散化,丢失视觉细节特征
②这么做是以同等的方式对待两种模态的输入,忽略了它们可能需要不同level级别的处理。比如,图像区域之间的关系可能比句子中的单词弱,而视觉特征本身往往已经是一个非常深的网络的输出;
③强制将预训练的权重去适应大量额外的视觉token可能会破坏已经学习的BERT语言模型。
本文提出的Co-attention模式,将K和V从一个模态传递到另一个模态的多头注意力模块,相应地,在视觉stream中生成基于图像的语言注意力,在语言stream中生成基于文本的图像注意力。

图像表征

由于图像区域间的无序性,本文使用了一个5维的向量对区域位置编码,从而实现图像空间位置的编码。这5个维度分别是归一化后的bounding boxes的左上角和右下角的坐标以及图像区域覆盖整个图像的占比。然后通过映射将其维数与视觉特征的同维度,并对它们进行加和。

预训练任务

训练ViLBERT采用了两个预训练任务。
masked multi-modal modelling
next sentence prediction
视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag_第3张图片
对于文本的mask任务保持与BERT中一致。对图像区域的mask预测任务,这里并不直接输入对区域的标签预测,而是建模各类别标签的分布,最小化输出分布与真实分布的KL散度(实现细节有待进一步探讨)。
多模态对齐预测任务中,token IMG位置的特征用作整个图像的表示,CLS位置的输出用作文本特征,两个特征逐位置相乘后通过一个线性层做二分类,预测是否对齐。

实验结果

本文在多个下游任务上验证了所提方法的有效性。
视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag_第4张图片

消融研究

Co-attention 的层数对实验结果的影响:
视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag_第5张图片
Conceptual Captions数据的使用比例对最终效果的影响(显然预训练使用的样本越多,正式任务效果越好)
视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag_第6张图片

你可能感兴趣的:(视觉常识推理,深度学习,自然语言处理)