2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

摘要

        现有的VLP方法严重依赖图像特征提取过程,大多包含区域监督(如目标检测)和卷积的结构(如ResNet)。尽管在文献中忽略,但我们发现有两个问题:1)效率/速度,仅仅提取特征就比多模态交互步骤需要更多的计算;2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力上限。本文,我们提出一个最小的VLP模型--视觉和语言Transformer(ViLT)将视觉输入的处理大大简化为与处理文本输入相同的无卷积方式。我们证明了ViLT比以前的VLP模型快几十倍,且具有竞争力或更好的下游任务性能

一、介绍

        使用预训练和微调方式的这些模型通过图像文本匹配和掩码语言建模目标在图像和它们对齐的描述上预训练,并对视觉和语言下游任务微调,其中输入涉及两个模态。

        大多VLP的研究都集中于通过增加视觉嵌入器的能力来提高性能。这种具有较重的视觉嵌入器的缺点往往被忽略,因为区域特征通常在训练时预先缓存,以减轻特征提取的负担,然而,这种限制在现实世界的应用中仍然很明显,因为野外的查询必须经历一个缓慢的提取过程。

        因此,我们关注视觉输出的轻量级和快速嵌入上。最近的工作证明,使用一个简单的补丁的线性投影足够有效,在输入transformer之前嵌入像素。我们假设,在VLP模型中用于模态交互的transformer模块也可以处理视觉特征来代替卷积视觉嵌入器。

        本文提出了一种视觉和语言Transformer(ViL),以统一方式处理两个模态。与以前VLP模型的不同在于其浅层、无卷积嵌入像素级输入,删除仅用于视觉输入的深度嵌入器,可以显著减少模型的尺寸和运行时间。图1表示,我们的参数高效模型比具有区域特征的VLP模型快几十倍,至少比具有网格特征的VLP模型快四倍,同时在视觉和语言下游任务上表现出相似甚至更好的表现。

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第1张图片

         本文主要贡献如下:1)ViLT委托transformer模块提取和处理视觉特征,以代替单独的深度视觉嵌入器,是视觉和语言模型中最简单的架构。这种设计本质上有了显著的运行时间和参数效率。2)这是第一次在不使用区域特征或深度卷积视觉嵌入器的情况下,在视觉语言任务上实现了主导的性能。3)此外,我们首次通过实验表明,在VLP训练方案中前所未有的整个单词掩码和图像增强进一步推动了下游的性能。

二、背景

2.1 视觉和语言模型的分类法

        我们提出一种基于以下两点的视觉和语言模型的分类法:1)两个模态在专用参数和/或计算方面是否具有均匀的表达水平;2)两个模态是否在一个深度网络中交互。这些点的组合将得到图2中的四个原型。

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第2张图片

         视觉语义嵌入(VSE)模型如VSE++和SCAN属于图2a它们使用的嵌入器来处理图像和文本,前者重得多,然后用简单的点积或浅层注意力层表示两种模态的嵌入特征的相似性。

        CLIP属于图2b,它为每个模态使用独立但昂贵的transformer嵌入器,池化的图像向量和文本向量之间的相互作用仍然很浅(点积)。尽管CLIP 在图像到文本检索任务具有显著的零样本表现,但我们无法在其他视觉和语言下游任务上观察到相同水平的表现。这一结果支持了我们的预测,即即使来自高性能单模态嵌入器的简单输出融合,也可能不足以学习复杂的视觉和语言任务,从而支持了对更严格的跨模态交互方案的需求。

        最近使用深度transformer来建模图像和文本特征的交互,如图2c,然而,除交互模块外,卷积网络仍涉及到图像特征的提取和嵌入,这占了图1计算的大部分。

        我们提出的ViLT是图2d类型的第一个模型,其中原始像素的嵌入层是浅的计算上像文本标记一样轻因此,这种结构将大部分的计算集中在建模模态交互上

2.2 模态交互模式

        当代VLP模型的核心是transformer,在获得视觉和文本嵌入序列作为输入,在整个层中建模模态间和选择性的模态内交互,然后输出一个上下文的特征序列

        Bugliarello等人(2020)将交互模式分为两类:1)单流方法(如VisualBERT,UNITER),层对图像和文本输入的串联进行集体操作;2)双流方法(如ViBERT、LXMERT),其中两个模态没有在输入水平上进行连接。我们遵循交互transformer模块的单流方法,因为双流方法引入了额外的参数

2.3 视觉嵌入方案

        尽管所有性能好的VLP模型都共享相同的文本嵌入器--来自预训练好的BERT的标记器,与BERT有相似的单词和位置嵌入,但与视觉嵌入器是不同的。我们通过引入补丁投影,专注于裁剪这一块,而不是使用提取模块的区域或网格特征

         区域特征涉及到影响性能和运行时间的因素:主干(常用ResNet101和ResNext-152)、NMS的方式(通常以per-class的方式,将NMS应用到每个类中,都将成为具有大量类的主要运行时间瓶颈,最近引入了与类无关的NMS来解决这个问题)、ROI头(最初使用C4,后来引入FPN-MLP,由于头为每个ROI操作,它们造成了大量的运行时负担)。无论多么轻,对象检测器不太可能比主干或单层卷积快,预先冻结视觉主干和缓存区域特征旨在训练时有帮助而不是推理期间,它会阻碍市场的表现。

        网格特征   除检测头外,ResNets等卷积神经网络的输出特征网格也可以作为视觉特征,主要是为了避免使用严重缓慢的区域选择操作。Pixel-BERT是唯一的用预训练的ImageNet分类取代了ResNet预训练的对象检测器的VLP模型。Pixel-BERT的主干在视觉和语言预训练期间进行了调整,使用ResNet-50的Pixel-BERT的下游性能低于基于区域特征的VLP模型,但它使用更重的ResNeXt-152与其他竞争对手相匹配。然而,我们声称网格特征并不是首选,因为深度CNN仍然很贵,所以它们占了计算的很大一部分

        补丁投影    为最小化开销,我们采用了最简单的视觉嵌入方案:在图像补丁上操作的线性投影。ViT引入了补丁投影嵌入,用于图像分类任务。补丁投影极大地简化了视觉嵌入步骤到文本嵌入的级别,它也包括简单的投影操作我们使用一个32×32补丁投影,它只需要2.4M参数,这与复杂的ResNe(X)t主干和检测组件形成鲜明对比,它的运行时间也可以忽略,如图1所示。

三、视觉和语言Transformer

3.1 模型概述

        具有简单的架构,作为一个VLP模型,具有最小的视觉嵌入管道并遵循单流方法。

        我们初始化交互transformer权重从预训练好的ViT而不是BERT,这种初始化利用了交互层能力来处理视觉特征,而缺乏一个单独的深度视觉嵌入器

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第3张图片

         ViT由堆叠的包含一个多头自注意力(MSA)层和一个MLP层的块组成。ViT中的层归一化(LN)的位置与BERT中有唯一的区别:LN在BERT中在MSA和MLP之后(“后归一”),在ViT中在之前(“前归一”)。

        输入图像I∈RC×H×W被切成补丁并展平v∈RN×(P2·C),其中(P,P)为补丁分辨率和N=HW/P2。然后是线性投影V∈R(P2·C)×H和位置嵌入Vpos∈R(N+1)×H,v被嵌入到V¯∈RN×H中。

        将文本和图像嵌入与其对应的模态类型嵌入向量ttypevtype∈RH求和,然后连接成一个组合序列z0。上下文化的向量z通过Ddepth transformer层进行迭代更新,直到最终的上下文化序列zD。p是整个多模态输入的池化表示,是通过在序列zD的第一个指标上应用线性投影Wpool∈RH×H和双曲切线得到的。

        对于所有的实验,我们使用在ImageNet上预训练的ViT-B/32的权重,因此得名ViLT-B/32,隐藏层H为768,层深度D为12,补丁大小P为32,MLP尺寸为3072,注意头数为12。

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第4张图片

3.2 预训练目标

        两个预训练目标:图像文本匹配(ITM)和掩码语言建模。

        图像文本匹配   受单词区域对齐目标的启发,我们设计单词补丁对齐(WPA),计算两个子集之间的对齐得分,使用不精确的近端点方法进行最优传输(IPOT)

        掩码语言建模    我们使用一个两层MLP MLM头,将MLM损失计算为掩蔽标记的负对数损失。

3.3 整个词掩码

        全词掩码是一种掩码组成整个单词的所有连续的子单词标记的一种掩码技术。当应用于原始和中文BERT时,对下游任务有效。

        我们假设,为充分利用其它模态的信息,全词掩码对VLP尤为重要。例如,词graffe被标记为三个字标记[gi, raf, fe],如果不是所有标记被掩蔽,[gi, [MASK], fe],模型可能只依赖附近的两个语言标记[gi, fe]来预测掩码的raf,而不是使用图像的信息。

        在预训练期间,我们用0.15的掩码概率掩蔽整个单词。

3.4 图像增强

        据报道,图像增强提高了视觉模型的泛化能力,DeiT尝试了各种增强技术,并发现它们有利于ViT训练。然而,在VLP模型中尚未探讨图像增强的影响,缓存视觉特征限制了基于区域特征的VLP模型使用图像增强,尽管它具有适用性,但Pixel-BERT也没有研究其影响。

        为此,我们在微调期间应用RandAugment。我们使用了所有的原始策略,除了两种策略:颜色倒置,因为文本通常也包含颜色信息,以及裁剪,因为它可以清除分散在整个图像中的小而重要的物体。使用N=2,M=9作为参数。

四、实验

4.1 概述

        使用四个数据集进行预训练:Microsoft COCO, Visual Genome, SBU Captions, Google Conceptual Captions, 如表1.

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第5张图片

         对两种广泛探索的视觉和语言下游任务进行评估:对于分类,我们使用VQAv2和NLVR2,对于检索,使用MSCOCO和Flickr30K(重新分割的)。对于分类任务,我们用不同的初始化种子对头部和数据排序进行了三次微调,并报告了平均分数。我们在表5中报告了标准偏差和消融研究。对于检索任务,我们只进行一次微调。

4.2 实现细节

         我们将输入图像的较短边缘调整为384,将较长的边缘限制在640以下,同时保持长宽比。这种调整方案也用于其它VLP的目标检测,但较短的边缘有更大的尺寸(800)。ViLT-B/32的补丁投影得到12×20=240补丁,分辨率为384×640。由于这是一个很少达到的上限,我们在预训练期间最多采样200个补丁。我们插入ViT-B/32的Vpos,以拟合每个图像的大小,并填充补丁进行批量训练。请注意,所得到的图像分辨率比800×1,333小4倍,这是所有其他VLP模型用于输入其视觉嵌入器的大小。

        我们使用bert-base-uncased标记器来标记文本输入。与从预训练的BERT中微调不同,我们从头学习与文本嵌入相关的参数tclass、T和Tpos。虽然表面上是有益的,但使用预先训练过的仅文本BERT并不能保证视觉和语言下游任务的性能提高。

4.3 分类任务

        在两个数据集上评估了ViLT-B/32:VQAv2和NLVR2,我们使用了隐藏层为1536的两层MLP作为微调的下游头。

        视觉问答    常见做法是将任务转换为包含3129个答案类的分类任务。根据这一实践,我们对VQAv2训练集和验证集上的ViLT-B/32微调,同时保留了1000张验证图像及其相关问题用于内部验证。

        与其它有重的视觉嵌入器的VLP模型相比,ViLT低于其它模型。我们怀疑由目标检测器生成的分离对象表示可以简化VQA的训练,因为VQA中的问题通常是关于对象的。ViT-B/32考虑到其推理速度,在数据集上保持了竞争的性能。

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第6张图片

 4.5 消融研究

        如表5,更多的训练步骤、全词掩码、和图像增强是有益的,而一个额外的训练目标没有帮助

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第7张图片

        训练迭代的次数会影响自监督模型的性能,由于VLP也是一种自监督训练的形式,我们研究了训练时间的影响。如预期那样,随着我们训练模型进行更长的训练步骤(第1-3行),性能不断增加MLM目标的掩码全词(第3-4行)和使用增强进行微调(第6行)也会驱使性能。进一步将训练迭代增加到200K,提高了VQAv2、NLVR2和零样本检索的性能。随着微调后的文本检索性能的下降,我们不再增加超过200K的迭代次数。

        另一个掩码区域建模是提高VLP模型性能的关键。我们使用掩码补丁预测(MPP)进行实验,它以与补丁预测相兼容的形式模拟MRM的效果。patch被掩码的概率为0.15,模型从它的上下文向量中预测掩码补丁的平均RGB值。然而,MPP对下游性能没有贡献(第4-5行)。这一结果与MRM对目标检测的监督信号的MRM目标形成鲜明对比。

4.6 VLP模型的复杂度分析

        表6中,我们报道了参数的数量,浮点操作的数量,和视觉编码器和transformer的推理延迟。我们排除了文本嵌入器,因为它被所有VLP模型共享9。在XeonE5-2650CPU和NVIDIAP40GPU上,平均延迟超过10K倍。

        输入大小的图像分辨率和连接的多模态输入序列的长度影响了FLOPs的数量。我们共同注意到了序列的长度。基于区域的VLP模型的图像分辨率为800×1333,Pixel-BERT-R的图像分辨率为R50,Pixel-BERT-X152的图像分辨率为600×1000,ViLT-B/32的图像分辨率为384×640。

        在Pixel-BERT和ViLT中,视觉标记在训练前被采样,并在微调过程中完全使用。我们报告了视觉标记的最大数量。

        我们观察到,对于长度在300以下的输入序列,bert-base-like transformer的运行时间仅变化<1ms。因为ViLT-B/32的补丁投影最多可以生成240个图像标记,我们的模型仍然可以是有效的,即使它接收到图像和文本标记的组合。

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第8张图片

 4.7 可视化

        图4是一个跨模态对齐的例子。WPA的运输计划表示了一个用粉红色突出显示的文本标记的热图。每个正方形方块代表一个补丁,它的不透明度表示从突出显示的单词标记传递了多少质量。

        更多的IPOT迭代——在训练阶段超过50次——帮助可视化热图收敛;根据经验,1000次迭代就足以得到一个清晰可识别的热图。我们对每个令牌的计划进行z规范化,并将值夹为[1.0,3.0]。

2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision_第9张图片

 五、结论和将来的工作

        本文我们提出一种最小的VLP架构视觉和语言transformer--ViLT。ViLT能够胜任那些配备卷积视觉嵌入网络(如Faster R-CNN、ResNets)的竞争对手。我们要求将来关于VLP的工作更多是关注transformer模块内部的模态交互,而不是参与一场仅仅推动单模态嵌入器的军备竞赛。

        尽管ViLT-B/32非常引人注目,但它更多地证明了没有卷积和区域监督的高效VLP模型仍然是可以胜任的。最后,我们指出了一些可能会增加到ViLT家族的因素。

        可测量性    如关于大规模transformer的论文所示,给定适当的数据量,预先训练过的transformer具有良好的性能。这一观察为更好地执行ViLT的变体(如ViLT-L和ViLT-H)铺平了道路。我们在将来会训练更大的模型,因为对齐的视觉和语言数据集仍然稀缺

        视觉输入的掩码建模    考虑到MRM的成功,我们推测,视觉模态的掩码建模目标有助于保存信息,直到transformer的最后一层。然而,如表5所示,在图像补丁(MPP)上的MRM的一个初期变体失败了。

        Cho等人提出用掩码对象分类(MOC)任务来训练它们的网格RoIs,然而,本研究中的视觉词汇群在视觉和语言预训练期间与视觉主干是固定的。对于可训练的视觉编码器,一次性集群不是一个可行的选择。我们认为,可以应用在视觉非监督研究中的交替聚类或同时聚类方法

        我们鼓励未来的工作不使用区域监督来设计一个更复杂的视觉形态的掩码目标。

        增强策略    之前关于对比视觉表示学习的工作表明,与更简单的增强策略相比,不使用RandAugment的高斯模糊比下游性能带来了显著的收益。为文本和视觉输入探索适当的增强策略将是一个有价值的补充。

你可能感兴趣的:(视觉问答参考文章,transformer,深度学习,cnn)