Align before Fuse:Vision and Language Representation Learning with Momentum Distillation

Align before Fuse:Vision and Language Representation Learning with Momentum Distillation

解决问题

视觉和语言预训练(VLP)旨在从大规模图像-文本对中学习多模态表示,可以改善下游视觉和语言(V+L)任务。现有的VLP普遍存在几个关键的局限性:(1)图像特征和单词标记嵌入驻留在自己的空间中,这使得多模态编码器学习建模它们的交互具有挑战性;(2)对象检测器既昂贵同时计算成本高;(3)广泛使用的图像-文本数据集来源于网络,本质上是存在大量噪声的,现有的训练目标可能会过拟合有噪声的文本,降低模型的泛化能力。
作者提出了ALBEF,这是一种解决上述问题限制的新VLP框架。

研究方法和创新点

由于视觉标记和单词标记未对齐,多模态编码器学习图像-文本交互具有挑战性。在本文中,作者引入了一种对比度损失来对齐图像和文本的表征,然后通过跨模态注意力来融合它们(ALBEF),从而使视觉和语言表征学习更grounded。与现有的大多数方法不同,ALBEF不需要边界框注释,也不需要高分辨率图像。为了改进对噪声网络数据的学习,作者还提出了动量蒸馏,这是一种自训练方法,它从动量模型产生的伪目标中学习。
现有的视觉语言表示学习工作分为两类。第一类侧重于使用基于转换器的多模态编码器对图像和文本特征之间的交互进行建模。此类别中的方法在需要对图像和文本进行复杂推理的下游 V+L 任务上取得了卓越的性能,但它们中的大多数都需要高分辨率输入图像和预训练的对象检测器。最近的方法 通过移除目标检测器来提高推理速度,但性能较低。第二类侧重于学习图像和文本的单独单峰编码器。最近的 CLIP 和 ALIGN 使用对比损失对大量嘈杂的网络数据进行预训练,这是表示学习最有效的损失之一 。他们在图像文本检索任务上取得了显着的性能,但缺乏为其他 V+L 任务对图像和文本之间更复杂的交互进行建模的能力 。ALBEF 将这两个类别统一起来,达到了单模态和多模态表示在检索和推理任务上都具有卓越的性能。

流程和模块

Align before Fuse:Vision and Language Representation Learning with Momentum Distillation_第1张图片
首先使用无检测器图像编码器和文本编码器独立编码图像和文本。然后使用多模态编码器通过跨模态注意力将图像特征和文本特征融合。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Align before Fuse:Vision and Language Representation Learning with Momentum Distillation_第2张图片

你可能感兴趣的:(计算机视觉,深度学习,人工智能)