多模态预训练模型

多模态预训练模型一般是图像和文本模态的交互,能充分利用已有的文本信息,对图像进行自监督或有监督的训练。多模态数据集和预训练任务总结如下:

模型

数据集

预训练任务

ALBEF

图文对:COCO,VG,CC,SBU Caption

ITC, MLM,ITM

CLIP

400million 网络公开数据集

对比学习

UniT

视觉/文本单模态和多模态的8个数据集

基于8个数据集的7个任务,包含目标检测,VQA,NLU

Vx2TEXT

视频用Kinetics,音频使用AudioSet

TVQA, AVSD,TVC

UNIMO

文本:BookWiki and OpenWebText;
图片:OpenImages,unlabeled COCO;
图文对:COCO,VG,CC,SBU Caption

对比学习,MLM,MRM

UNITER

图文对:COCO,VG,CC,SBU Caption

conditional MLM和MRM,ITM,WRA

Pixel-BERT

图文对:MS-COCO,VG

MLM,ITM

Oscar

图文对:COCO,CC,SBU Caption,flicker30k, GQA等4.1million;
text-tag-image三元组:6.5million

对比学习,MTL

Unicoder-VL

3.8M 图文对齐数据;
包含3M的CC和0.8M的SBU Captions

MLM,ITM,MOC

VisualBERT

图文对:COCO
一张图片对应5个描述,共10w张图片

MLM,ITM

ViLBERT

图文对:CC,3.3million,文本弱相关

MLM,ITM

VideoBERT

YouCook II dataset
包括2k视频,平均时长5.26m

3种masked learning,text-only, video-only和text-video

数据集说明 VG:Visual Genome CC:Conceptual Captions 预训练任务说明 MLM:masked language model MTL:masked token loss MRM:masked region model ITM:image text matching MOC:masked object classification WRA:Word-Region Alignment TVQA:video questions answering TVC:video captioning,同TVQA,但视频节选方式不同 AVSD:audio-visual scene-aware dialog

论文&代码地址

模型

论文&代码

ALBEF

https://arxiv.org/pdf/2107.07651.pdf
https://github.com/salesforce/ALBEF

CLIP

https://arxiv.org/pdf/2103.00020.pdf
https://github.com/openai/CLIP

UniT

https://arxiv.org/pdf/2102.10772.pdf

Vx2TEXT

https://arxiv.org/pdf/2101.12059.pdf

UNIMO

https://arxiv.org/pdf/2012.15409.pdf
https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO

UNITER

https://arxiv.org/pdf/1909.11740.pdf
https://github.com/ChenRocks/UNITER

Pixel-BERT

https://arxiv.org/pdf/2004.00849.pdf

Oscar

https://arxiv.org/pdf/2004.06165.pdf
https://github.com/microsoft/oscar

Unicoder-VL

https://arxiv.org/pdf/1908.06066.pdf

VisualBERT

https://arxiv.org/pdf/1908.03557.pdf

ViLBERT

https://arxiv.org/abs/1908.02265

VideoBERT

https://arxiv.org/abs/1904.01766

模型概况

ALBEF

  1. 双流模型;

  2. 在预训练和下游任务时,使用momentum distillation,缓解图文数据集中的噪声问题;

  3. 从Mutual Information的视角看图文对信息对齐。

CLIP

  1. 双流模型,文本和视觉分别进入transformer encoder,经过线性投影计算不同图文对的相似度;

  2. 使用对比学习,将图片分类转换成图文匹配任务。

UniT:文本和视觉分别encoder,concat之后进入transformer decoder,根据head进行不同任务的训练。 Vx2TEXT

  1. 基于backbone network提取模态特征,经过分类器,使用Gumbel-softmax 采样得到k个类别,和文本一样,映射到统一的语言空间;

  2. 端对端的文本生成模型。

UNIMO

  1. 目的:集成单模态和多模态结果的预训练模型,在多模态任务上表现不错,在单模态任务上,效果也不会下降太多;

  2. 数据增强:通过text rewriting,text/image retrieval 增强正负样本。

UNITER

  1. 目的:构建一个统一的图文学习框架,适用于各种图文任务;

  2. 分别对图文做embedding,经过Layer Normalization进入transformer;

  3. 提出conditional masking和OT-based WRA预训练任务。

Pixel-BERT

  1. 目的:之前都是用Faster R-CNN做目标检测提取视觉特征,存在噪音冗余和语义鸿沟,通过pixel-based 特征提取,提高视觉表达的鲁棒性;

  2. pixel-based:random pixel sampling mechanism,视觉特征提取后,在每个feature map里提取pixel作为视觉特征,相当于feature map内部的dropout。

Oscar

  1. 目的:同图片中的object tags作为anchor points辅助学习多模态对齐的信息;

  2. 输入为3元组Word-Tag-Image;

  3. 通过Faster R-CNN检测的k个高精度region作为object tags。

Unicoder-VL

  1. 目的:构建图片和长序列的联合表征的预训练模型;

  2. 提取的100个region feature 和文本 concat一起,进入multi-layer transformers。

VisualBERT

  1. Embedding有3种:视觉bounding region,区分视觉和文本的segment embedding和视觉和文本对齐的position embedding;

  2. 用了多种fusion方式,实验结果显示early-fusion最好。

ViLBERT:双流模型,每个模态先进入自己的TRM(transformer block),再做模态交叉Co-TRM(co-attentional transformer)。 VideoBERT

  1. 通过BERT学习text-to-video和video-to-text任务;

  2. 视觉文本对齐处理;

  3. 3种masked learning,text-only, video-only和text-video。

你可能感兴趣的:(多模态,深度学习,计算机视觉,多模态)