燕青
Chunyuan Li, Zhe Gan, Zhengyuan Yang, et al.
LLM, Multimodality
近年来,人工智能领域在模型发展方面经历4个阶段,如图1所示。
视觉语言预训练( vision-language pre-training,VLP)已成为主流的视觉学习范式,其目标是学习通用的可迁移的视觉和视觉语言表征,或者生成高度可信的图像。它与语言领域的BERT/GPT-2一样,可以被认为是初代的多模态基础模型。
多模态基础模型的转变遵循着类似语言模型的趋势:从针对特定目的的预训练模型,到统一模型和通用助理。
总体而言,构建通用智能体一直是AI的长期目标。因此,构建通用视觉助理变得越来越重要。可以预见的通用视觉助理应该具有遵循用户上传图像、点击画面、草图或遮盖等指令的能力。
本文对现代多模态基础模型进行了全面和及时的调查,不仅涵盖了① 视觉理解 和② 视觉生成 的成熟模型,还总结了过去6个月里LLMs启发的新兴主题,包括③ 统一视觉模型、与多模态LLMs的④ 训练 和⑤ 链接(多模态代理)。
随着基于广泛数据训练的模型(如BERT、GPT系列、CLIP等)的兴起,其可以适应广泛的下游任务。他们被称为基础模型,因为它们具有关键的中心性但不完整,且随着规模的扩大变得强大且能够获得新兴能力。
本文重点关注具有处理视觉-语言模态能力的模型,且根据多模态基础模型的功能性和一般性对其进行分类:
特定目的预训练模型
视觉理解模型:根据用于训练模型的监督信号类型,本文将方法分为三类:
标签监督
语言监督
仅图像的自监督
视觉生成模型:分为以下两种:
通用助理:通用人工智能体是发展的趋势,现有研究主要集中在三个方面:
学习通用的视觉表示对于构建视觉基础模型至关重要,对于所有类型的计算机视觉下游任务起关键作用,从图像级(分类、检索和描述)、区域级(检测)到像素级(分割)任务。根据用于训练模型的监督信号类型,可以分为 ① 标签监督、② 语言监督与 ③ 图像自监督三类。此外,本章最后也会谈到 ④ 多模态融合(Multimodal Fusion)。
在ImageNet等大规模人工标注数据集上进行有监督预训练,已经成为广泛采用的获取可迁移视觉表征的方法。它旨在将一幅图像映射为一个离散的标签,该标签与一个视觉概念相关联。这种方法极大加快了各种视觉骨干的设计进度,如ResNet、ViT等。它还为各种的计算机视觉任务提供了骨干,从图像分类、目标检测/分割、视觉问答、图像描述、到视频行为识别。然而,在预训练数据集中,由于人工标注的代价昂贵,学习到的表示的有效性往往受限于监督的规模和多样性。
语言是比经典的闭集图像标签更丰富的监督形式。从网络爬取的图像的监督标签通常含有噪声,而对比学习可以直接使用开放文本学习可迁移的图像表示,这就是对比语言-图像预训练(CLIP)的关键。
CLIP联合训练一个图像编码器和一个文本编码器来预测一批(图像, 文本)训练样本的正确配对。在测试时,学习的文本编码器通过嵌入目标数据集类别的名称或描述,生成一个零样本线性分类器。如图6所示。
对比学习的核心思想是促进正样本对,排斥负样本对。除了在CLIP中使用外,对比学习也是自监督图像表示学习中的一个热门概念。所有基于图像的对比学习方法具有大致相同的框架,具体如下:
最近的自监督学习方法不依赖于负样本。负样本由非对称架构、维度去相关以及聚类替换。
在SimSiam中,一幅图像经过两个独立数据增强后的视图由一个相同的编码器网络处理。随后,在一个视图上使用预测MLP,而在另一个视图上停止梯度传播。该模型的目标是最大化两个视图之间的相似度。
另一种方法DINO包括将输入图像的两个不同的随机变换送入学生和教师网络。这两个网络具有相同的体系结构,但具有不同的参数。教师网络的输出以一个批次中的均值为中心。每个网络输出一个特征向量,用一个应用于特征维度的softmax进行归一化。使用交叉熵损失来量化这些特征之间的相似性。此外,在教师网络中停止梯度传播,以确保梯度仅通过学生网络传播。DINO使用学生参数的指数移动平均值来更新教师参数。
掩码语言建模是一个强大的预训练任务,其彻底改变了NLP的研究。为了模仿BERT预训练在NLP领域取得的成功,BEiT提出使用掩码图像建模(Masked Image Modeling,MIM)来预训练图像TransFormer。
两个关键概念:
而MIM的输出目标可以为原始像素值,也可以为不同的特征,如图8所示。
对于CLIP等双编码器,图像和文本是分开编码的,模态交互只通过图像和文本特征向量的点积来处理。这对于零样本图像分类和图像文本检索是非常有效的。然而,由于缺乏深度的多模态融合,CLIP单独在图像描述和视觉问答任务上表现不佳。而进行多模态融合,需要对融合编码器进行预训练,通常使用额外的转换层来建模图像和文本表示之间的深层交互。
基于目标检测器的模型
早期的方法大多使用预训练的目标检测器(Object Detector,OD)来提取视觉特征。其中,ViLBERT等方法使用共同注意力进行多模态融合,而VisualBERT等方法将图像特征作为文本输入的软提示送入多模态转换器。
端到端模型
现在,端到端的预训练方法成为主流。一些早期的方法使用CNN提取图像特征,或直接将图像块特征和文本标记嵌入输入到多模态转换器中。由于ViT的普及,现在大多数方法直接使用ViT作为图像编码器和Swin TransFormer。
UNITER和CoCa分别作为经典模型和现代模型的两个例子,对多模态融合进行预训练,其示意图如图9所示。
UNITER通过现成的物体检测器提取图像特征,并将图像特征作为文本输入的软提示送入多模态转换器。对于CoCa,使用图像编码器和文本编码器,顶部堆叠多模态TransFormer。
综上,以下是本章涉及的主题与其代表工作:
视觉生成旨在生成高保真的视觉内容,包括图像、视频、神经辐射场、三维点云等。该主题是最近流行的人工智能生成内容(AIGC)的核心,这种能力有助于合成训练数据以帮助理解模型,从而实现多模态内容理解和生成的闭环。为了利用视觉生成,生成严格符合人类意图的视觉数据是至关重要的。这些意图作为输入条件被输入到生成模型中,例如类标签、文本、边界框、布局掩码等。鉴于开放式文字描述所提供的灵活性,文本条件(包括文本到图像/视频/3D )已经成为有条件视觉生成中的一个关键主题。
在这一章中,本文描述了如何在视觉生成中与人类意图保持一致,重点是图像生成。首先概述① 文本到图像( T2I )生成现状,强调了其与人类意图对齐的局限性。其次回顾四个旨在增强T2I生成中一致性的目标领域的文献,即② 空间可控T2I生成、③ 基于文本的图像编辑、④ 文本提示跟随和T2I生成中的⑤ 视觉概念定制。
T2I生成背景下的AI对齐研究是致力于使图像生成模型可以轻松地遵循人类意图来合成所需的生成视觉内容。
Stable Diffusion(SD)是使用最广泛的开源T2I模型之一,其主要分为图像VAE(Variational autoencoder,变分自编码器)、去噪U-Net和条件编码器3部分,分别如图12的左中右所示。
T2I生成采用开放式文本,供用户描述自己想要的图像。然而,当需要指定空间信息时,单独的文本描述是无效的。空间可控的T2I图像生成研究探索扩展T2I模型,引入额外的空间输入条件来指导图像生成过程。
区域控制T2I生成
一研究探索了使用任意区域上开放式文字描述作为额外输入条件,来增强了T2I模型中的全局图像描述。这种新的输入条件要求T2I模型能够理解空间输入,并将其与接地文本相关联。ReCo是一种区域控制T2I模型,如图13所示。
密集条件T2I生成
除了空间坐标外,分割掩码、边缘图和深度图等2D的密集空间阵列都可以作为T2I模型的输入条件,如图14所示。
密集空间阵列:即空间阵列中包含有整幅图像较完整的空间语义信息。与之相对的概念是稀疏空间阵列,其部分空间语义信息缺失。
T2I编辑结合输入文字描述,从给定的图像中合成新的图像。与完全从零开始生成图像不同,T2I编辑其目的是保留大部分原有的视觉内容,只修改特定的组件。
扩散过程操作
扩散图像生成中的多步去噪过程天然地支持了一定程度的图像编辑。先对输入图像添加噪声进行编辑,然后对样本进行去噪,可以产生有意义的编辑。
文本指令编辑
用户使用语言直接指定编辑指令更有效率,如图16中的"用玫瑰换向日葵"。T2I模型可以通过在SD的卷积中加入更多的输入通道来接受额外的图像输入。
T2I模型可能无法很好地跟随文本提示,特别是当图像描述变得复杂时。例如,某些名词短语可能会被省略,某些属性可能应用于错误的对象,生成的图像可能有错误的对象数量、关系、样式等。相关文献大致可以分为两大类:( 1 ) 推理时操作 和 ( 2 ) 对齐微调。
推理时操作
在推理时解析文本查询,并显式地执行T2I模型以更密切地关注每个名词短语,可能会生成更好地跟随文本提示的图像。
StructureDiffusion使用语法分析树来提取名词短语和文本提示的语言结构,然后强制模型"查看"所有提取的名词短语(通过修改交叉注意力机制实现)。
推理时操作:没有进行额外的训练与更新模型权重参数,仅在推理过程中进行操作
对齐微调
可以改进一个预先训练好的T2I模型来更好地跟踪文本提示。一种方法是通过强化学习,使用图像-文本相似度作为奖励,而不是在训练中使用的图像生成目标。这使得模型可以朝着更好的图像-文本对齐的方向进行优化。
DDPO(denoising diffusion policy optimization)使用视觉语言模型将生成的图像转换为文字描述。将生成的文字描述与输入的文本提示进行比较,通过使用BERTScore得出相似度奖励。然后利用相似度奖励对预训练的T2I模型进行微调,使得模型能够更好地跟随文本提示。
语言不能全面地描述视觉概念的所有细节以进行重构。而通过图像输入直接扩展T2I模型来理解视觉概念是一个更好的选择。
单概念定制
如图18的左侧所示,Textual Inversion模型处理一只狗的四幅不同输入图像,随后学习一个新token的嵌入,记为**[ V ]。这个[ V ]** token可以作为一个文本token来表示这个特定的狗。**[ V ]**标记可以与其他文本描述结合,在各种语境中呈现特定的狗,如游泳、装桶、理发等。
多概念定制
最近的研究探讨了将多个视觉概念整合到单个文本到图像模型中的可能性,表示为**[ V1 ]、[ V2 ]**等。Custom Diffusion利用从多组概念图像中学习到的模型权重中挑选的子集,特别是在交叉注意力层中从文本到潜在特征的关键和值映射,进行概念定制。
综上,以下是本章涉及的主题与其代表工作:
针对各种类型的下游计算机视觉语言任务,可以采用统一的模型架构。本章的讨论包括以下方面:① 统一视觉模型所面临的挑战, ②将闭集模型转换为开集模型,③ 统一不同粒度的视觉任务,④ 建立及时交互界面。
不同类型的计算机视觉任务千差万别。
输入格式
从静态图像到连续视频,从图像去雾等纯视觉输入到视觉和语言等多模态输入。
任务粒度
图像级任务,如图像分类和字幕描述;区域级任务,如目标检测;像素级任务,如图像分割和超分辨率等。
输出格式
边缘、方框、面具等空间信息,类标签、多标签标签等语义信息,或者细节描述等。
数据格式
数据标签具有不同的粒度和语义丰富度,从整幅图像、区域(方框)到像素(掩码)标注。其次,收集图像数据的成本要比文本数据高得多。
传统的图像分类或检测模型从一个预定义闭集(训练集标签)中预测出一个标签或检测出目标。然而,当闭集标签不足时,模型很难迁移到其他任务中去。例如,很难将使用COCO集训练的目标检测器应用于军用舰艇的检测。而CLIP通过引入语言-图像对比预训练方法来训练开集模型,解决了闭集模型的局限性。
继CLIP后,许多开集视觉模型被开发出来,可以按照以下三个维度进行分类:模型初始化、设计和训练。
闭集(closed-set)与开集(open-set):在闭集设置中,模型的任务是识别一组在训练和测试阶段都保持不变的类别。在更现实的开放集设置中,模型不仅必须能够区分训练类,而且还必须指示图像是否来自它尚未遇到的类。
模型初始化
一种方式是直接使用预训练的CLIP进行初始化。另一种方式是使用CLIP作为一般初始化方法的增强,例如通过知识蒸馏,利用对齐的CLIP特征对模型进行扩充。还有的方式使用有监督的预训练模型或从头开始学习视觉-语义特征空间。
模型设计
开集模型可以是多阶段的,也可以是端到端的。如两阶段模型将定位和识别解耦,训练性能较好的定位网络,使用预训练的CLIP进行识别。端到端模型如GLIP将目标检测定义为文本背景,并在带有检测和背景标签的图像-文本对上进行端到端的训练。
模型训练
通过将标签监督转换为语言监督,许多工作直接利用已有的监督标注(如COCO数据集)来训练开集模型。
跨不同粒度或领域的视觉任务之间很难进行协同,主要有任务类型碎片化(跨时间、空间、模态轴)和不同粒度任务的标注数据集规模不同两个难点。
尽管存在上述挑战,在NLP领域已经建立起了统一的通用模型的背景下,得益于TransFormer的通用性,这些模型可以借鉴并应用于各种视觉和视觉语言任务。目前已有的尝试可以归纳为两大类:
I/O统一
最近的一些工作将不同类型的视觉任务重构为一个序列到序列的问题。他们通常使用一个tokenizer将不同任务中的不同模态的原始I/O tokenize为一个一致的序列(视觉或文本)token串,然后开发一个统一的序列到序列模型。
功能统一
功能统一的模型通常不需要任务特定或模式特定的tokenizer,但需要复杂的模型设计以适应各种任务。
上述两类统一方法的区别在于,I/O统一利用一个解码器来解码同构的token序列,然后由特定任务的解码器来解码。相比之下,功能统一预测异构的输出,然后使用不同的路由器为各种任务产生最终的输出。
ChatGPT等大型语言模型的成功展示了现代人工智能模型在与人类交互中的重要性。与人类交互的能力需要一个用户友好的界面,该界面能够接收尽可能多类型的人类输入,并生成人类易于理解的响应。最近,一些工作提出了增强静态视觉模型的能力以支持:① 多模态提示,② 语境提示 。
多模态提示(Multi-modal Prompting)
视觉与语言有着本质的区别。为了人机间能够准确交互,模型不仅需要语言提示,还需要其他类型的提示来补充缺失的信息或解决语言中的歧义。
空间提示:通过输入位置信息来调节视觉模型。
视觉提示:对于一个难以描述的对象,展示一个例子将更直白且有效。
语境提示(In-context Prompting)
语境学习能力已经在许多LLMs中被观察到,但针对视觉模型的语境学习能力的研究仍然较少。
Hummingbird模型利用目标和源图像之间的注意力来聚合信息,取多个输入提示图像(第一行)和对应的语义标签图(第二行),如图22所示。给定查询图像,首先在查询点的提示图像中找到最近邻的特征位置,然后将相同的匹配投影到语义标签图中,从而聚合目标查询的标签。该策略类似于早期基于K近邻建立分类模型的工作。
LLMs能够迅速适应新的场景,并具有语境学习的能力。学界正在探索从用于解决特定问题的独立模型,转变为将多个工具或专家与LLMs协同链接以解决复杂、开放的问题。
在本章中,本文介绍将不同的多模态专家模型与LLMs联系起来以解决复杂问题的技术,称为多模态代理(multimodal agents)。本章将首先概述了这种建模范式的① 演变;其次对多模态代理进行了 ② 总体概述;最后以一个典型的多模态代理MM - REACT为例,全面回顾了 ③ 如何构建多模态Agent,以及它如何扩展到集成最新和最强的LLM和潜在的数百万种工具。
一个典型的多模态Agent框架的概述见图24。首先,用户直接与工具分配器进行交互,工具分配器作为代理的大脑发挥作用(通常是一个LLM)。接下来,LLM将用户请求分解成较小的、可管理的子问题,并规划一个分步的解决方案。随后,LLM调用所需的外部工具。最后,从工具中收集执行结果作为LLM的输入,生成对用户的响应。
MM-ReAct将大量多模态工具与ChatGPT相结合,用于多模态推理和行动。通过使用各种多模态工具对单一语言的ChatGPT进行扩展,MM-REACT支持多模态的输入和输出,包括文本、图像和视频,如图25所示。
由于ChatGPT(GPT3.5)只接受语言输入,使用图片路径作为图像的输入。ChatGPT将图片路径视为黑盒的占位符,然后在规划阶段从不同的工具中寻求帮助。
Multimodal Foundation Models: From Specialists to General-Purpose Assistants
@misc{li2023multimodal,
title={Multimodal Foundation Models: From Specialists to General-Purpose Assistants},
author={Chunyuan Li and Zhe Gan and Zhengyuan Yang and Jianwei Yang and Linjie Li and Lijuan Wang and Jianfeng Gao},
year={2023},
eprint={2309.10020},
archivePrefix={arXiv},
primaryClass={cs.CV}
}