当前,多模式人工智能已经成为一个街谈巷议的热门话题。随着GPT-4的最近发布,我们看到了无数可能出现的新应用和未来技术,而这在六个月前是不可想象的。事实上,视觉语言模型对许多不同的任务都普遍有用。例如,您可以使用CLIP(Contrastive Language-Image Pre-training,即“对比语言-图像预训练”,链接:https://github.com/openai/CLIP)对看不到的数据集进行零样本图像分类;通常情况下,无需任何训练即可获得出色的表现。
视觉语言模型利用视觉和语言数据之间的协同作用来执行各种任务,从而彻底改变了该领域。虽然目前已有的文献中已经引入了许多视觉语言模型,但CLIP(对比语言-图像预训练)仍然是最知名和最广泛使用的模型。
通过在同一向量空间中嵌入图像和标题,CLIP模型允许进行跨模式推理,使用户能够以良好的准确性执行诸如零样本图像分类和文本到图像检索等任务。并且,CLIP模型使用对比学习方法来学习图像和标题的嵌入。
对比学习使得CLIP模型可以通过在共享向量空间中最小化图像之间的距离来学习将图像与其相应的标题相关联。CLIP模型和其他基于对比的模型所取得的令人印象深刻的结果证明了这种方法是非常有效的。
对比度损失用于比较批次中的图像和标题对,并优化模型以最大化匹配图像-文本对的嵌入之间的相似性,并降低批次中其他图像-文本对之间的相似度。
下图展示了可能的批处理和训练步骤示例,其中:
1.紫色方块包含所有标题的嵌入,绿色方块包含所有图像的嵌入。
2.矩阵的平方包含批次中所有图像嵌入和所有文本嵌入的点积(读作“余弦相似性”,因为嵌入是标准化的)。
3.蓝色正方形包含模型必须最大化相似性的图像-文本对之间的点积,其他白色正方形是我们希望最小化的相似性(因为这些正方形中的每一个都包含不匹配的图像-文本对的相似性,例如猫的图像和描述“my vintage chair”(我的复古椅子)。
经过训练后,你应该可以生成一个可以在其中对图像和标题进行编码的有意义的向量空间。一旦为每个图像和每个文本嵌入了内容,你就可以做很多任务,比如看哪些图像更符合标题(例如,在2017年暑假相册中找到“dogs on the beach”(海滩上的狗)),或者找到哪个文本标签更像给定图片(例如,你有一大堆你的狗和猫的图像,你希望能够识别哪个是哪个)。
CLIP等视觉语言模型已成为通过集成视觉和语言信息来解决复杂人工智能任务的强大工具。他们将这两种类型的数据嵌入共享向量空间的能力在广泛的应用中带来了前所未有的准确性和出众表现。
我们所做的工作正是试图采取一些手段来回答这个问题。关于深度模型能否或者说能在多大程度上理解语言这个问题,当前还存在着重大的争论。在这里,我们的目标是研究视觉语言模型及其合成能力。
我们首先提出了一个新的数据集用来测试成分理解;这个新的基准被称为ARO(Attribution,Relations,and Order:属性、关系和顺序)。接着,我们探讨为什么对比损失在这种情况下可能是有限的。最后,我们为这个问题提出了一个简单但有希望的解决方案。
像CLIP(以及Salesforce最近推出的BLIP)这样的模型在理解语言方面做得怎么样呢?
我们收集了一组基于属性的合成标题(例如“the red door and the standing man”(红门和站着的人))和一组基于关系的合成标题(例如“the horse is eating the grass”(马在吃草))以及相匹配的图像。然后,我们生成替代后的虚假标题,比如“the grass is eating the horse”(草正在吃马)。模型们能找到正确的标题吗?我们还探讨了混排单词的效果:难道模型更喜欢非混排标题而不是混排标题吗?
我们为属性、关系和顺序(ARO)基准创建的四个数据集如下图所示(请注意,顺序部分包含两个数据集):
我们创建的不同数据集包括Relation、Attribution和Order。对于每个数据集,我们显示一个图像示例和不同的标题。其中,只有一个标题是正确的,模型必须识别出这个正确的标题。
属性测试对属性的理解结果是:“the paved road and the white house”(铺好的路和白房子)与“the white road and the paved house”(白路和铺好的房子)。
关系测试对关系的理解结果是:“the horse is eating the grass”(马在吃草)和“the grass is eating the horse”(草在吃草)。
最后,Order测试了模型对顺序打乱后的弹性结果:我们随机打乱标准数据集(例如,MSCOCO)的标题。
视觉语言模型能找到与图像匹配的正确标题吗?这项任务似乎很容易,我们希望模型能够理解“马在吃草”和“草在吃草”之间的区别,对吧?我的意思是,谁见过草在吃东西?
好吧,可能是BLIP模型,因为它无法理解“马在吃草”和“草在吃草”之间的区别:
BLIP模型不理解“草在吃草”和“马在吃草”之间的区别(其中包含来自视觉基因组数据集的元素,图片由作者提供)
现在,让我们看看实验结果:很少有模型能在很大程度上超越理解关系的可能性(例如,eating——吃饭)。但是,CLIP模型在属性和关系的边缘方面略高于此可能性。这实际上表明视觉语言模型尚存在问题。
这项工作的主要结果之一是,我们学习语言需要的可能不仅仅是标准的对比损失。这又是为什么呢?
让我们从头开始:视觉语言模型通常在检索任务中进行评估:取一个标题并找到它映射到的图像。如果你查看用于评估这些模型的数据集(例如,MSCOCO、Flickr30K),你会看到,它们通常包含用标题描述的图像,这些标题需要理解构图能力(例如,“the orange cat is on the red table”:橙色的猫在红色的桌子上)。那么,如果标题很复杂,为什么模型不能学习构图理解呢?
[说明]在这些数据集上进行检索并不一定需要对组成的理解。
我们试图更好地理解这个问题,并在打乱标题中单词的顺序时测试了模型在检索方面的性能。我们能找到标题“books the looking at people are”的正确图像吗?如果答案是肯定的;这意味着,不需要指令信息来找到正确的图像。
我们测试模型的任务是使用打乱的标题进行检索。即使我们打乱标题,模型也可以正确地找到相应的图像(反之亦然)。这表明检索任务可能过于简单,图片由作者提供。
我们测试了不同的乱序过程,结果是肯定的:即使使用不同的乱序技术,检索性能也基本上不会受到影响。
让我们再说一次:视觉语言模型在这些数据集上实现了高性能的检索,即使指令信息无法访问。这些模型可能表现得像一堆单词,其中顺序并不重要:如果模型不需要理解单词顺序才能在检索中表现良好,那么我们在检索中实际衡量的是什么?
既然我们知道存在问题,我们可能想寻找解决方案。最简单的方法是:让CLIP模型明白“猫在桌子上”和“桌子在猫身上”是不同的。
事实上,我们所建议的一种途径是通过添加专门为解决这个问题而制作的硬底片来改进CLIP训练。这是一个非常简单有效的解决方案:它需要对原始CLIP损失进行非常小的编辑,而不会影响总体性能(您可以在论文中阅读一些注意事项)。我们将此版本的CLIP称为NegCLIP。
基本上,我们要求NegCLIP模型将黑猫的图像放在“a black cat sitting on a desk”(坐在桌子上的黑猫)这句话附近,但远离句子“a black desk sitting on a cat”(坐在猫身上的黑色桌子)。注意,后者是通过使用POS标签自动生成的。
该修复的效果是,它实际上可以提高ARO基准的性能,而不会损害检索性能或检索和分类等下游任务的性能。
总之,视觉语言模型目前已经可以做很多事情了。接下来,我们迫不及待地想看看GPT4等未来的模型能做什么!