2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks

摘要

        学习图像-文本对的跨模态表示的大规模预训练方法在视觉-语言任务上越来越流行。现有的方法只是将图像区域特征和文本特征连接起来作为模型输入,以进行预训练,并使用自注意力以蛮力的方式学习图像-文本语义对齐。本文中,我们提出一种新的学习方法OSCAR使用图像中检测到的对象标记作为锚点,以显著简化对齐的学习。我们方法的动机是观察到图像中的显著对象可以被准确检测到,并且经常在成对的文本中提及。我们在650万文本-图像对的公共语料库中预训练一个OSCAR模型,并在下游任务上微调,在六个成熟的视觉-语言理解和生成任务上创造了最新结果。

一、介绍

        这些VLP模型是基于多层的Transformer,为预训练这种模型,现有的方法将图像区域特征和文本特征连接起来作为输入,并利用自注意力机制来学习语义对齐,然而,由于图像区域和文本之间缺乏显示的对齐信息,使得对齐建模为一个弱监督学习任务。此外,视觉区域往往过采样、噪声模糊,使得任务更具挑战性。

        本研究中,我们表明,通过引入图像检测到的对象标记作为锚点,可以显著提高跨模态表示的学习,以简化图像和文本间语义对齐的学习。我们提出一种新的VLP方法OSCAR,我们将训练样本定义为三元组,每个三元组包含一个单词序列,一组对象标记,和一组图像区域特征。方法的动机,例如在MSCOCO数据集上,一个图像及其配对文本共享至少1、2、3个对象的百分比分别为49.7%、22.2%、12.9%。整体设置如图1所示。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第1张图片

         这项工作是第一个探索在VLP上使用锚点对齐建模的工作。之前的工作在V+L任务上使用对象或图像标签来增强图像区域的特征表示。如,[46]使用对象预测概率作为一个软标签,并与其相应图像特征连接起来;[42]引入图像级的标签或属性来改进图像级的视觉表示。

        本工作的主要贡献可总结如下:(1)我们引入了OSCAR,一种强大的VLP方法,以学习通用的图像-文本表示。(2)我们开发了一个OSCAR模型,在多个V+L基准上实现了新的SoTA,显著优于现有方法。(3)我们进行广泛的实验和分析,以提供关于使用对象标签作为跨模态表示学习和下游任务的锚点的有效性的见解。

二、背景

        很多V+L任务的训练数据包含图像-文本对,如图2(a),预训练的目标是以自监督的方式学习图像-文本对的跨模态表示,通过微调来适应各种下游任务

        VLP通常使用多层的自注意力Transformer,来学习基于每个模态的嵌入的跨模态上下文表示。因此,VLP的成功从根本上依赖于输入单个嵌入的质量。现有的VLP方法以图像的视觉区域特征和成对文本的词嵌入作为输入,依赖自注意力机制学习图像-文本对齐,并产生跨模态上下文表示。

        现有VLP方法的两个问题:(1)模糊性,通常通过Faster R-CNN从过采样的区域种提取视觉区域特征,不可避免地导致不同位置图像区域的重叠,使得提取的视觉嵌入存在歧义。如图2(a)种,dog和couch的区域特征不易区分,因为区域严重重叠。(2)缺乏接地,VLP是一个弱监督的学习问题,因为在图像中的区域或对象和文本中的单词或短语之间没有明确的标签的对齐。然而,我们可以看到突出的对象,如dog和couch都呈现在图像和配对的文本中,并可作为学习图像区域和文本单元之间的语义对齐的锚点,如图2(b)。本文提出了一种新的VLP方法,利用这些锚点来解决上述问题。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第2张图片

 三、OSCAR预训练

        人类通过多种渠道感知视觉,即使单个渠道可能是不完整或嘈杂的,重要的因素仍然是可感知的,因为它们往往在多个通道之间共享(如,dog可以在视觉和口头上描述)。基于这一动机,我们提出一种新的VLP模型OSCAR来学习在语义级别上捕获通道不变(或模态不变)因素的表示。Oscar与现有VLP的不同之处在于,它可以表示输入的图像-文本对和预训练的目标,如图3所示。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第3张图片

         输入  OSCAR将每个输入图像-文本对表示为一个Word-Tag-Image三元组(w,q,v),w是文本的单词嵌入的序列,q是从图像中检测到的对象标签的单词嵌入序列,v是图像的区域向量集。

        现有的VLP方法将每个输入对表示为(w,v),OSCAR引入q作为锚点,以方便图像-文本对齐的学习,因为在训练数据中,图像中的重要对象通常也出现在图像配对的文本中,使用相同的单词作为对象标签,或使用不同但语义相似或相关的单词。因为在文本中,使用q和w间的对齐相对容易,通过使用预训练过的BERT模型来识别,这被用作OSCAR中VLP的初始化因此当文本中与语义相关的单词查询时,检测到对象标签的图像区域可能比其它区域具有更高的注意力权重。这种对齐过程在概念上如图2(b)所示。这个过程也可以解释为学习接地图像对象,这可能在视觉空间中模糊表示(如图2(a)中的dog和couch),在语言空间中表示为不同的实体(如图2(c)).

       具体地,v和q生成如下,给定一个具有K个对象区域的图像(通常过采样和有噪声),使用Faster R-CNN提取每个区域的视觉语义为(v',z),区域特征v'是P维向量(P=2048),区域位置z是一个R维向量(R=4或6),我们将v'和z连接起来形成一个位置感知的区域特征向量,并利用一个线性投影将其进一步转换为v,以确保其具有与单词嵌入相同的向量维数。同时,使用同一个Faster R-CNN检测一组高精度的对象标签,q是对象标签的单词嵌入的序列。

        预训练目标  OSCAR的输入可以从两个不同的角度来看:

 x是区分文本和图像表示的模态视图,x'是字典视图用来区分两个不同的语义空间,双视图视角允许我们设计一个新的预训练目标

        字典视图:掩码令牌损失。使用不同的字典来表示不同子序列的语义空间。具体地,对象标签和词令牌共享相同的语言语义空间,而图像区域特征位于视觉语义空间。我们将离散的令牌序列定义为h=[w,q],并应用掩码令牌损失(MTL)进行预训练,在每次迭代中,我们在h中以15%的概率随机掩码每个输入令牌,并用特殊令牌[MASK]替换掩码中的一个hi。训练的目标是通过最小化负对数可能性基于它们周围的令牌h\i来预测掩码的令牌。

 这类似于BERT使用的掩码语言模型,掩码的单词或标签需要从周围环境中恢复,并提供额外的图像信息来帮助将学习到的单词嵌入到视觉上下文。

        模态视图:对比损失。对于每个输入的三元组,我们分组h'=[q,v]表示图像模态,将w作为语言模态。然后我们采样一组被污染的图像表示(通过从数据集D中随机采样不同的标签序列,用50%的概率替换q)。因为特殊令牌[CLS]上的编码器输出是(h',w)的融合视觉-语言表示,所以我们在顶部应用一个全连接层作为一个二进制分类器f(.)来预测这对数据对是否包含原始的图像表示(y=1)或任何受污染的图像表示(y=0),对比损失被定义为:

 在跨模态预训练期间,我们利用对象标签作为图像的代理来调整BERT的单词嵌入空间,其中文本与成对的图像(或更具体地说,从图像中检测到的对象标签)相似,与被污染的图像不相似。

        OSCAR的预训练目标是:

         讨论:尽管其它损失函数设计可以被视为预训练目标,但我们用这两种损失有两个原因:(1)每个损失都有它自己的角度提供了一个具有代表性的学习信号,我们故意为联合损失保持一个清晰且简单的形式,以分别研究所提出的字典和模态视图的有效性。(2)虽然总损失比现有VLP方法更简单,但在实验中产生了优越的性能。

        预训练语料库  我们基于现有的V+L数据集构建了预训练语料库,包括COCO,Conceptual Caption(CC),SBU标注,flicker30k,GQA等。总之,唯一的图像集有410万组,语料库由650万组文本-标签-图像三元组。

        实现细节  我们预训练两个模型变体,OSCARB和OSCARL,分别用BERT base(H=768)和large(H=1024)的参数初始化。为了保证图像区域特征具有与BERT相同的输入嵌入大小,我们利用矩阵w的线性投影对位置敏感区域特征进行变换。可训练参数为θ={θBERT,W}。使用了AdamW优化器。OscarB至少训练1.0M步,学习率为5e−5,批大小为768。OscarL接受了至少90万步的训练,学习率为1e−5,批处理大小为512。离散标记h和区域特征v的序列长度分别为35和50。

四、适应V+L任务

        VQA  我们在VQA v2.0数据集上进行了实验。当对VQA任务微调时,我们构建一个输入序列,包含一个给定的问题、对象标签和区域特征的连接,然后将OSCAR的[CLS]输出送到特定任务的线性分类器,用于答案预测。我们将VQA视为一个多标签分类问题,根据其与人类答案响应的相关性为每个答案分配一个软目标分数,然后通过最小化使用预测分数和软目标分数的交叉熵损失对模型进行微调。推理时,我们只使用一个Softmax函数进行预测。

五、实验结果和分析

5.1 SoTA的性能比较

        为考虑参数效率,我们将OSCAR与三种SoTA比较:(1)SoTAS表示在基于Transformer的VLP模型之前,小型模型取得的最佳性能;(2)SoTAB表示与BERT base相似大小的VLP模型所获得的最佳性能;(3)SoTAL表示与BERT large相似大小的模型产生的最佳性能。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第4张图片

        表1总结了所有任务上的整体结果,我们的基本模型在大多任务上都优于以前的大型模型,差距非常大,表明所提出的OSCAR是高度的参数效率,部分原因是使用对象标签作为锚点显著简化了图像和文本之间的语义对齐的学习。OSCAR是在650万对上预训练,少于UNITER不到960万对的预训练和918万用于LXMERT。

         表2报告了在每个任务上的详细的比较:(1)OSCAR在所有7个任务上都优于现有的VLP方法,并且在6个任务上实现了SoTA.(2)鉴于我们的方法是基于单任务微调,结果证明了我们体相互的预训练方法的有效性,(3)总之OSCAR在理解和生成任务上性能最好。

5.2 定性研究

        我们使用t-SNE在二维地图上可视化COCO测试集的图像-文本对的学习语义特征空间。对于每个图像区域和单词表示,我们将其传递给模型,并使用它的最后一层输出作为特征,比较了有和没有对象标签的预训练,图4的结果显示了一些有趣的发现。(1)类内借助对象标签,两个模态间的相同对象的距离大大缩短,例如,在OSCAR内person的视觉和文本表示比基线模型中更近。(2)类间在添加标签后,相关语义的对象类更近(但仍可区分),如动物(person,zebra,sheep,bird),家具(chair,couch,bench),和交通工具(bus,train,truck,motorcycle,car)。验证了在对齐学习中对象标签的重要性:在链接和正则化跨模态特征学习中锚点的重要作用。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第5张图片

5.3 消融研究

        我们在预训练和微调中对OSCAR的很多设计选择进行了一些消融实验,以更好地理解它们对四个表示下游任务的相关性,所有消融都在基线模型上进行。

        对象标签的影响  我们进行了三种不同的设置:(1)baseline(No Tags):将模型简化为以前的VLP对应模型,其中没有利用标签信息;(2)Predicted Tags:我们使用一个现成的对象检测器(在COCO数据集上训练)来预测对象标签;(3)Ground-truth Tags:来自COCO数据集的真实表示被用作我们方法的性能上限。实验采用相同的BERT base模型对VQA、图像检索和图像标注任务上进行,如图6,使用对象标签进行微调的学习曲线比在所有没有标签的VLP方法上收敛更快更好。在VQA任务上,使用标签的训练只需一半的时间实现基线的最终性能,表明OSCAR是一个更实用更有效的VLP方案。随着未来更精确的对象检测器的发展,OSCAR可以取得更好的性能,缩小与使用真实标签的差距。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第6张图片

         注意力相互作用  为进一步理解文本、对象标签和对象区域间的交互,我们通过改变图像-文本检索中的注意力掩码来进行微调实验。默认设置使用对所有模态的全部关注,然后使得注意力掩码的某些部分,所有模型都从BERT base上初始化,不需预训练。表3表示在COCO 1K测试集上的性能,通过比较全注意力和部分注意力w-v,我们发现添加对象标签是有益的,而且,在表示图像上区域特征比对象标签(w-v vs. v-q)更具信息量,这表明当使用对象标签作为特征时,效果略有改善,一个更有前途的方法是使用它们作为锚点,就像在OSCAR中的那样。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第7张图片

         预训练中的对象标签  为研究不同对象标签集在预训练好的模型中的影响,我们预训练两种变体:OSCARVG和OSCAROI分别利用在VG数据集和OI数据集上的对象检测器产生的对象标签。表4结果表示,无论使用哪组对象标签集,使用对象标签作为锚点的OSCAR方案都提高了基线VG标签的性能略优于OI。假设在VG上训练的对象检测器有更多样化的对象级,尽管在OI上训练的对象检测器具有更高的精度。

2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks_第8张图片

 六、相关工作

 七、总结

        本文中,我们已经提出了一种新的预训练模型OSCAR,使用对象标签作为锚点来对齐在一个共享语义空间中的图像和语言模态。我们通过在一个包含650万文本-图像对的公共预料库上预训练OSCAR模型来验证该模式。预训练过的模型在六个已建立的V+L理解和生成任务上实现了最新结果。

你可能感兴趣的:(视觉问答参考文章,深度学习,计算机视觉)