目录
总结
一、INTRODUCTION
二、TASK SPECIFIC PROBLEMS
1. Image Captioning
2. VQA
3. Image-Text Matching
4. Others
三、VISION LANGUAGE JOINT REPRESENTATION
1. Why Pre-training Is Needed?
2. Modality Embedding
3. Modality Fusion
4. Training
5. Landscape of General Pre-training Studies
四、SCALE UP MODELS AND DATA
五、FUTURE TRENDS
参考(更多细节见原文)
作者从时间的角度对Vision-Language进行了综述。将该领域的发展归纳为三个阶段,即任务特定方法、视觉语言预训练(VLP)和基于大规模少标签数据的大型模型。作者首先以一些常见的VL任务为例,介绍了任务特定方法的开发。然后重点介绍了VLP方法,全面回顾了模型结构和训练方法的关键组成部分。然后展示了如何利用大规模的Vision-Language数据来学习与语言对齐的视觉表示。最后,讨论了未来在模式融合(视觉数据改善语言任务,用单模态数据改善跨模态任务)、统一表示(建立一个可以统一多种模态的通用表征模型。如UNIMO可以处理包括理解和生成在内的单模态和多模态下游任务)和知识整合(将知识注入Vision-Language Transformer)方面的一些潜在趋势。
尽管在单模态领域取得了令人鼓舞的进展,但现实世界的问题往往涉及多种模态。例如,自动驾驶汽车应该能够处理人类指令(语言)、交通信号(视觉)和道路状况(视觉和声音)。即使是单模态也能从多模态中受益。例如,语言学习需要感知,感知是人类理解物质世界的方式,它决定了人类语言背后的假设。在多模态领域中,视觉与语言的融合备受关注,因为视觉是人类理解环境的最重要感知之一,而与语言相匹配的视觉特征可以极大地提高视觉任务和视觉-语言任务的性能。
许多特定的VL任务(image captioning 图像字幕, visual question answering (VQA) 视觉问答, image-text matching 图文匹配)会推动VL学习的发展。由于语言和视觉的预训练和微调的启发,视觉和语言的跨学科领域迎来了一个新时代:通过对图像-文本对的预训练来学习视觉和语言的联合表示。但是由于缺乏大规模的人工标记数据,VL学习的发展面临着严峻的挑战。
作者将VL学习的发展分为三个时期。第一次是2014年至2018年,针对不同任务设计了特定的模型。第二个时代是2019年至2021年,在此期间,通过在标记良好的VL数据集上进行预训练,学习视觉和语言的联合表示。最后,第三个时代在2021年开始,由于CLIP的出现,研究人员寻求在更大的弱标记数据集上预训练VL模型,并通过VL预训练获得小样本/无样本视觉模型。
早期的VL方法是为特定的任务设计的。VL领域包含了广泛的任务,包括图像标题、VQA、图文匹配、视觉理解和视觉对话等。表1总结了一些常见的VL任务,其中显示了每个任务的输入、输出、数据集、指标和主流方法。
- Task definition:图像字幕的目标是为给定的图像生成字幕。字幕是概括图片内容的句子,通常包含感兴趣的对象、以及它们正在做什么和它们之间的位置关系。
- Methods:早期的图像字幕方法是基于规则的,即首先识别对象及其关系,然后根据预定义的规则生成标题。由于视觉识别器的词汇量有限,基于规则的方法不能处理人类语言中的复杂场景。Seq2Seq 利用encoder编码源语言文本,利用decoder生成目标语言文本,在机器翻译中取得了巨大成功。GoogleNet 将文本encoder替换为图像encoder,并实现了SOTA。早期人们用CNN作为图像encoder来提取特征,它的问题在于decoder并不能像人类那样专注于图像的重要区域。注意力机制的出现很大程度上解决了这个问题。注意机制允许模型通过给予重要网格特征较高的关注权重来聚焦于图像的某些部分。
- Task definition:给定一个图像-问题对,VQA要求根据图像回答一个问题。大多数研究都将VQA视为一个预定义答案集上的分类问题。
- Methods:vanilla VQA将VGG和LSTM进行了融合,将编码后的图像与问题特征进行点积合并,然后通过一个完全连接层来预测候选答案的概率。问题的回答通常只与图像的某些区域有关。SAN是第一个验证在VQA中注意力有效性的工作。VQA的核心是获得图像和语言(问题)的联合表示。这一领域的研究人员探索了各种更好地对图像和语言进行编码和融合的方法,为下面的VLP方法奠定了基础。但是该领域的大部分工作都是对图像和语言进行独立编码,然后进行融合。
- Task definition:ITM旨在从图像中找到与语义上最接近的目标。根据查询和目标模式,它包含两个子任务:图像到文本匹配和文本到图像匹配。
- Methods:图文匹配的核心是计算图像与文本之间的相似度或距离。一个被广泛采用的模型是将图像和文本映射到一个共享的嵌入空间中,然后计算它们的相似度。早期方法主要采用全局特征对图像和文本进行编码。Deep Fragment 首次尝试在图像端和文本端同时使用细粒度表示。它不是直接表示整个图像和句子,而是将每个图像片段和句子片段映射到跨模态嵌入空间中。然后将不同形态的碎片排列在一起。由于注意机制在其他VL任务中显示出巨大的成功,也有许多工作将注意力机制引入ITM任务中,如SCAN等。
- Text-to-Image:给定一段文本,生成包含文本内容的图像。
- Visual Dialog:给定一个图像,一个对话历史,和一个关于图像的问题,回答问题。
Visual Reasoning:与VQA类似,视觉推理需要进一步理解图像的能力。视觉推理任务通常包含对图像中对象、问题结构等的充分注释。
Visual Entailment:给定一个图像和一个文本,确定图像是否在语义上包含输入文本。
.......
预训练-微调范式在下游任务中取得了巨大的成功。受单模态语言-视觉预训练成功的激励,研究人员开始探索语言和视觉的联合表征,产生了跨模态VLP模型。其中最重要的突破之一是Transformer,它可以在语言标记上以并行地融合全局信息,这有利于强大的表示和大规模训练。BERT 是Transformer的一个成功应用,它利用了Transformer,并引入了一种双向掩码技术,允许每种语言token双向地关注其他token。
如图6所示,VLP模型中主要有三个组件,即 visual embedding(VE)、textual embedding(TE)和modality fusion(MF)。VE和TE通常分别用图像和文本进行预训练,而MF则将VE和TE提取的特征进行融合。在海量数据集上进行预训练对于提高在小数据集下游任务的性能至关重要,因为学习到的表示可以在下游任务中进行传输。
深度学习本质上是一种统计数据驱动的方法,其目的是从已有数据中学习映射函数,从而利用所学到的映射函数对未知数据进行预测。然而,在实践中,数据永远不足以表示未知分布,从而导致许多缺陷,如对未知数据的低性能,容易受到对抗攻击等。预训练允许利用无限的无标签(或弱标签)数据来学习符合下游任务的特征。这样的大规模数据集有助于更好地定义预期损失的近似值,以便从数据中学习更健壮和非伪的模式。得益于预训练和微调阶段之间的共享模型,在非常有限的监督下,学习到的特征可以在微调后的下游任务中获得较高的精度。这使得预训练-微调范式成为解决(或减轻)数据短缺问题的有效解决方案。
文本和图像在本质上是不同层次的信息,涉及到维度和结构。为了解决这种模态差异,通常利用模态嵌入从每个模态中独立提取特征,然后将这些特征映射到共享的特征空间中。
VLP模型的核心是模态融合,它对模态内和模态间的融合进行建模,以产生图像和文本的上下文联合表示。MF模式可分为双流模式和单流模式。如图6所示。
为了学习视觉和语言的联合表示,视觉语言预训练方法通常使用多个自监督学习在大数据集上对模型进行预训练。主要有三种预训练方法,分别是Image Text Matching(ITM)、Masked Language Modeling(MLM)和 Masked Visual Modeling(MVM)。
受NLP和CV预训练成功的启发,VLP领域的研究工作近年来激增。VLP研究如图7所示。更详细的相关工作见表2。
虽然视觉-语言联合表征已经取得了令人鼓舞的进展,但上述大多数研究主要集中在追求良好的跨模态对齐。然而,他们有一个很强的假设:图像和文本对都有很好的标记。CLIP和DALL-E是第一个成功利用大规模网络爬虫数据进行预训练的实践。在它们成功的激励下,最近的几项工作进一步建立了更强大的模型和更大的数据集。
- Toward Modality Cooperation:模式合作就是不同的模式互相帮助,学习更好的表征。例如,用视觉数据改进语言任务,用单模态数据改进跨模态任务。
- Toward General Unified-Modality:一个更有雄心的目标是建立一个可以统一多种模式的通用表示模型。UNIMO提出了统一的预训练模型,可以处理包括理解和生成在内的单模态和多模态下游任务。
- VL+Knowledge:许多VL任务需要训练数据集以外的常识和事实信息。然而,大多数VLP模型没有消耗额外知识的机制。Shevchenko等人提出将知识嵌入直接注入到视觉-语言Transformer中。该方法首先利用知识嵌入构建知识库,然后将训练数据中的句子与知识嵌入进行匹配。
原文链接:https://arxiv.org/pdf/2203.01922.pdf