<<多模态预训练—泛读>>2022:mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec

<<多模态预训练—泛读>>2022:mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec_第1张图片


目录

问题与方案

一、Introduction

二、Related Work

2.1、Vision-Language Pre-training

2.2、Skip-connection

三、mPLUG

3.1、Model Architecture

3.2、Cross-modal Skip-connected Network

3.3、Pre-training Tasks

四、Experiments

五、Conclusion


问题与方案

        问题:由于视觉模态序列长度大于文本模态序列长度,导致大多数多模态预训练模型都存在计算效率低和信息不对称的问题。

        方案:cross-modal skip-connections,在视觉模态一侧跳过一定数量的co-attention层。

一、Introduction

        学习VLP模型的一个巨大挑战是在这两种模态之间找到良好的对齐方式,以缩小两者之间的语义差距。先前的研究使用预先训练的对象检测器(Faster-rcnn的提议框)从图像中提取显著的目标区域,然后与语言对应的对象对齐,这种方法通常受到对象检测器的能力、它可以表示的预定义的视觉语义以及可用的注释的数量的限制。最近的工作以端到端的方式实现了图像和文本表示之间的直接对齐,通过图像patch或网格提取更细粒度的视觉表示,然而,在建模长视觉序列时存在两个重大问题:1)效率:长视觉序列上的自注意力比文本序列上的计算量多很多;2)信息不对称:广泛使用的图像文本预训练数据中的标题文本通常较短且高度抽象,而可以从图像中提取更详细和多样的信息。这种不对称性对模态之间的有效多模态融合提出了挑战。

<<多模态预训练—泛读>>2022:mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec_第2张图片

多模态融合的常见方式:

  • 图1a:简单的将视觉和语言特征串联作为输入,实现视觉和语言的早期融合。通过自注意力从底层对齐模态。这种方法对来自两种模态的信息进行同等处理,这可能会导致信息不对称,尤其是当模态之间的信息密度或序列长度存在较大差异时。
  • 图1b:在两种模态上独立进行多模式融合,有助于缓解信息不对称问题。然而,对于长视频序列,它仍然存在计算效率低下的问题,并且对于两个独立的transformer结构,参数效率并不是很高。

mPLUG:        

  • 我们提出了mPLUG,通过跨模态跳跃连接来实现高效的视觉语言学习,以解决基本的信息不对称问题。与在相同层次上融合视觉和语言表示不同,跨模态跳跃连接跳过一定数量的视觉表示层,以反映出语言相对于视觉的语义丰富性。如图1c所示,MPUG首先在前几层采用非对称的co-attention架构,通过移除视觉侧的co-attention来提高效率,再将原始的视觉表示和语言侧的co-attention的输出串联输入到一层self-attention。

二、Related Work

2.1、Vision-Language Pre-training

        VLP的典型方法可为两类:dual encoderfusion encoder。dual encoder利用两个单模态编码器分别对图像和文本进行编码,然后使用点积等简单函数来建模图像和文本之间实例级的跨模态交互。fusion encoder使用多层自注意和交叉注意网络等深度融合来建模图像和文本序列之间的细粒度跨模态交互,包括单流和双流体系结构。

2.2、Skip-connection

        跳跃连接广泛应用于CV和NLP,如ResNet和Transformer,[22、21、12、23、24、25]。这项工作中,mPLUG提出了一种新的跨模态跳跃连接方法来解决跨模态融合问题,选择是关注不同模态的所有级联表示,还是只关注每一层的跨模态交互部分。

三、mPLUG

3.1、Model Architecture

<<多模态预训练—泛读>>2022:mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec_第3张图片

        如图2所示,mPLUG由两个独立用于图像和文本的单模态编码器、一个跨模态跳跃连接网络和一个用于文本生成的解码器组成。

        首先使用两个单模态编码器visual encoder(通常为vit)和text encoder(通常为bert)分别对图像和文本进行编码,visual encoder将输入图像划分为多个patch,并添加[CLS] token进行编码。text encoder对文本同样添加[CLS] token进行编码。

        然后,将视觉和语言的表征输入到由多个跳跃连接融合块组成的跨模态跳跃连接网络中(即图中最大的方块)。在每个skip-connected融合块中,我们对S个不对称的co-attention层(即图中的 Asymmetric Co-Attn和左边的视觉一侧的跳跃连接)中的输出再进行拼接方式的跨模态融合(即图中的Connected Attention,对原始视觉特征和co-attention后的文本特征进行拼接融合。因此mPLUG相较于标准的双流模型,就是剔除了视觉一侧的co-attention,文本一侧的co-attention仍然保留)。

        该网络利用拼接跨模态融合的有效性和非对称co-attention的效率,以递归方式增强跨模态融合。

3.2、Cross-modal Skip-connected Network

        跨模态跳跃连接网络由N个跳跃连接融合块组成。在每个跳跃连接的融合块中,我们将connected-attention层应用于每个不对称的co-attention的输出。非对称co-attention由自注意(SA)层、交叉注意(CA)层和前馈网络(FFN)组成。connected-attention由自注意(SA)层和前馈网络(FFN)组成。

3.3、Pre-training Tasks

        ITC:参考ALBEF、MoCo。

        ITM:参考ALBEF。

        MLM:参考BERT。

        PrefixLM:参考Palm。

四、Experiments

五、Conclusion

        本文介绍了一种高效的跨模态理解和生成VLP框架mPLUG。mPLUG引入了一种新的非对称视觉语言体系结构,该体系结构具有新颖的跨模态跳跃连接,以解决跨模态对齐中的信息不对称和计算效率这两个基本问题。MPUG在大规模图像-文本对上进行了预训练,在广泛的视觉语言任务上实现了最先进的性能。当直接应用于多个视频语言任务时,MPUG还显示出强大的zero-shot迁移能力。我们的工作探索了一种新设计的VLP体系结构的跨模式对齐,希望它能帮助推动图像-文本基础模型的未来研究。

你可能感兴趣的:(Multi-Modal,Pretraing,Visual,Question,Answering,语言模型,transformer,深度学习)