本文中,我们提出了一种基于transformer的可视接地方法。与以前的proposal and rank框架(严重依赖预训练对象检测器)或proposal free框架(通过融合文本嵌入来升级现成的单级检测器)不同,我们的方法构建在transformer编码器-解码器之上,独立于任何预训练检测器或单词嵌入模型。我们的方法被称为VGTR——带transformer的视觉接地,旨在在文本描述的指导下学习语义区分视觉特征,而不损害其定位能力。这种信息流使我们的VGTR在捕获视觉和语言模式的上下文级语义方面具有强大的能力,使我们能够聚合描述所隐含的准确视觉线索,以定位感兴趣的对象实例。实验表明,我们的方法在保持快速推理速度的同时,在五个基准上比最新的proposal-free方法有相当大的优势。
Note:分割主要分为两类:基于候选区域的实例分割(proposal-based)和免候选区域的实例分割(proposal-free)。其中,proposal-based先获取场景中的感兴趣的候选区域,如:包括R-CNN,Fast R-CNN,Faster R-CNN and R-FCN等,并在候选区域内对数据进一步预测得到实例标签。考虑到proposal-based 实例分割通常需要2个过程(先得到候选区域,再实例分割),分割过程繁琐,则proposal-free则摒弃了基于候选区域的方式,直接通过数据特征或者结合语义分割结果,得到实例分割结果。如:YOLO and SSD
视觉接地的目的是从图像中定位查询语句引用的对象实例。由于其在视觉和语言导航[36]以及自然人机交互方面的巨大潜力,该任务越来越受到学术界和工业界的关注。它可以使许多其他多模态任务受益,例如视觉问答[13]、图像字幕[17]和跨模态检索[29],仅举几例。
视觉基础是一项具有挑战性的任务。如图1所示,一个对象实例可以由多个引用表达式引用,类似的表达式可以引用不同的实例。因此,它需要全面了解这两种方式,即:。E复杂的语言语义和多样的图像内容,不仅是其中的对象实例,还包括它们之间的关系,以实现成功的视觉基础。更重要的是,模型需要在两种模式之间建立上下文级别的语义对应,因为目标对象是可区分的根据其他对象的视觉上下文(即属性和与其他对象的关系)以及与文本描述的语义概念的对应关系,从其他对象中提取信息。
图1。视觉接地任务说明。这是非常具有挑战性的,因为一个对象实例可能会被多个查询语句引用,而类似的表达式可能会引用不同的实例。我们的方法能够准确地定位引用的实例,即使对于复杂的表达式也是如此。绿色盒子是基本真理;蓝色和红色框是我们方法的结果。框和表达式之间的对应关系由其颜色标识。
早期的尝试[22,16]将视觉基础视为基于文本的图像检索的特例,并将其作为给定图像中一组候选区域的检索任务。他们利用现成的对象检测器或建议方法生成一组候选对象区域,然后根据它们与引用表达式的相似性对它们进行排序。将检索排名靠前的一个。这些方法严重依赖于预训练检测器,通常忽略对象的视觉上下文,这限制了它们的性能,尤其是当引用表达式是包含对象实例复杂描述的长句时。
为了解决这些限制,一些作品试图对所有proposal[23]或整个图像[41,9]的视觉背景进行编码。在它们的设置中,所有建议或整个图像的特征都用作对象实例的支持上下文。这种策略忽略了对象之间的关系建模,容易造成信息冗余的困境,即信息冗余。E并不是所有的方案都能为确定目标对象提供有用的线索。为了解决这个问题,一些工作侧重于选择proposal的子集,并对它们之间的关系进行建模,以形成上下文特征。例如,[4,52]在语言描述的指导下关注少量proposal;[40、44、43]根据图像中的空间关系过滤对象建议.
虽然用proposal子集总结参与的对象可以实现更具区别性的特征学习,但这些方法仍然难以实现视觉和语言之间的语义对齐。除此之外,其中许多都受到候选对象proposal质量的限制,并且在生成和处理这些候选对象时会产生额外的计算成本。最近,许多工作[12,5,33,46,45]转向简化视觉接地管道,放弃proposal生成阶段,直接定位参考对象。这个新的管道在目标检测网络上执行手术,并植入引用表达式的特征来增强它。尽管有优雅的结构和推理效率,视觉和文本上下文的特征是相互独立的。如何更有效地学习和融合这两个特性仍然是一个有待解决的问题。
在这项工作中,我们通过开发一个基于端到端transformer的接地框架(称为可视接地变压器(VGTR))来缓解上述问题,该框架能够在不生成object proposal的情况下捕获文本指南DVISUALContext。我们的模型的灵感来源于Transformers在自然语言处理[38]和计算机视觉[11,39,20,3,53,8,27]方面的最新成就。与最近流行的建立在现成检测器之上的接地模型不同,我们提议重组的transformer编码器,以同时处理视觉和语言模式,目的是理解自然语言的描述,获得更多有区别的视觉证据,以减少语义歧义。
具体地说,如图2所示,我们的框架由四个主要模块组成:用于提取视觉和文本标记的基本视觉编码器,用于在视觉语言上执行联合推理和跨模态交互的基础编码器,AgroundingDecoder将文本标记附加为接地查询,并将输出提供给后续头部,以便直接执行预测。我们框架的核心是具有视觉和文本分支的基础编码器,其中利用两种自我注意机制,即语言自我注意机制和文本引导的视觉自我注意机制来分别地理解语言描述的语义并学习文本引导的上下文感知视觉特征。
在本节中,我们将回顾有关视觉接地的文献以及视觉变压器的最新进展。
社区中经常研究两类视觉基础方法: propose-and-rank 方法(也称为两阶段方法)和无建议方法(也称为一阶段方法)。
propose and rank方法[4,9,52,40,48,44,43]首先利用现成的检测器或建议生成器从图像生成一组候选对象建议,然后根据语言描述对候选对象进行评分,并选择排名靠前的一个。这些方法受到预训练检测器或方案生成器性能的限制。只有在第一阶段正确地提取了地面真值对象,下面的排序和选择阶段才起作用。
无建议的方法[5,46,33,45]专注于直接定位参考对象,而无需事先生成候选对象。例如,Yanget al.[46]通过将文本特征融合到视觉特征中来重建YOLOv3探测器[30],并用softmax函数替换最后的sigmoid层,以直接预测目标对象。[45]改进了这个简单而有效的范例,其中建议以迭代方式在图像和语言查询之间进行推理,以逐步减少基础歧义。该策略对于长查询场景特别有用。Sadhuet al.[33]提出了一种称为ZSGNet的单级模式,以解决零炮视觉接地的挑战性问题。这项工作实现了令人鼓舞的性能在zero-shot设置。
Proposal-free范例在准确性和参考速度方面都显示出巨大的潜力,现在正成为社区中的主导框架。关于视觉接地任务及其当前解决方案的全面调查,请读者参考[28]。
Transformer[38]最初是为自然语言处理而开发的,是一种基于自我注意机制的深层神经网络。受其强大表示能力的鼓舞,研究人员试图将该体系结构扩展到视觉任务中,如目标检测[3,53,35,8]、分割[39,27]、车道检测[20]和其他[37]。Carionet等人[3]提出了一种新的基于transformer编码器-解码器体系结构的对象检测框架DETR。受[7]的启发,Zhuet al.[53]引入了可变形卷积以减轻DETR的计算负担,从而以更少的训练成本实现更好的性能。Sunet等人[35]开发了一种仅使用编码器的DETR,其性能有所提高,但训练时间更短。从NLP中的预训练变压器中得到启发,Dai等人[8]开发了DETR的无监督训练策略,实现了更快的收敛和更高的精度。这些目标检测方法将图像特征映射重塑为一组标记,并达到与最新技术相当的精度。
除了检测,其他视觉任务也受到变形金刚的启发。Liuet等人[20]使用transformer学习更丰富的车道结构和上下文,并显著提高车道检测性能。Wanget al.[39]将变压器引入全景分割,并通过新颖的双路径变压器设计简化电流管道,从而获得卓越的性能。Timet等人[27]提出了一种基于注意的转换器,用于解决微观结构中细胞的实例分割问题。为了解决人类交流中的多模态问题,Tsaiet等人[37]提出了一种多模态转换器,用于对齐多模态语言序列。
受这些成就的启发,我们相信transformer可以提供一个极好的解决方案来缩小视觉和语言的语义差距。
本节将详细介绍基于transformer的visual-grounding模型。
我们的目标是通过自我注意机制,在语言表达的指导下,提取高层次的、上下文感知的视觉特征。为了实现这一点,我们首先使用CNN主干提取图像的相对低级和上下文受限的视觉特征映射,并使用基于RNN的软解析器计算相应可变长度语言描述的一定数量的语言嵌入向量。然后,视觉特征被转换和重塑为一组视觉标记,语言嵌入向量被视为一组文本标记,这两个标记都被馈送到重构的转换器编码器中。编码器通过两个不同的分支并行处理视觉和文本标记,其中引入了文本引导的视觉自我注意机制来学习文本引导的上下文感知视觉特征。在编码器步骤之后,处理后的文本标记和视觉标记分别用作接地查询和编码存储器,发送到转换器解码器进行回归,直接定位目标对象。框架的总体架构如图2所示。我们将在以下小节中详细介绍每个模块。
除了使用复杂的预训练模型(如BERT[10]),我们建议通过基于RNN的soft解析器来学习文本标记。我们的soft解析器的体系结构如图2所示。对于给定的表达式 E = { e t } t = 1 T E=\{e_{t}\}^{T}_{t=1} E={et}t=1T,其中 T \Tau T指定表达式的长度,我们首先使用可学习的嵌入层将每个单词 e t e_{t} et嵌入到向量 u t u_{t} ut中;然后应用双向LSTM(Bi-LSTM)[15]对每个单词的上下文进行编码,并计算每个文本标记 q k q_{k} qk每个单词上的注意权重。通过在Bi-LSTM计算的最终隐藏表示上附加一个由所有RNN步骤共享的附加全连接(FC)层和一个后续softmax函数,获得第k个单词上的第k个文本标记的注意权重 a k , t a_{k,t} ak,t:
然后,单词嵌入的加权和被用作第k个文本标记:
最后的文本标记由 X q = { q k } t = 1 T q X_{q}=\{q_{k}\}^{T_{q}}_{t=1} Xq={qk}t=1Tq表示,其中 T q T_{q} Tq表示标记的数量, q k q_{k} qkhas size d=256。
为了解决缺少基本编码器获得的令牌的上下文信息的问题,我们提出了一种Visual Grounding Transformer进一步处理基本的视觉和文本标记。如图2所示,我们的transformer由two-branch grounding encoder和a grounding decoder组成。下面,我们将详细介绍每个模块。
接地编码器由一堆相同的层组成,其中每层都有两个独立的分支:视觉和文本分支,分别用于处理视觉和文本标记。这与以往采用独立特征提取然后融合的工作有很大不同。每个分支由三个子层组成:一个规范子层、一个多头自关注子层和一个完全连接的前馈子层,遵循尽可能保持变压器原始结构的设计原则。我们在Xionget等人[42]之后使用预规范化而不是后规范化。
如图3所示,对于视觉分支的自关注子层,我们用 Q v Q_{v} Qv表示视觉查询,用 K v K_{v} Kv表示键,用 V v V_{v} Vv表示值,对于文本分支的自关注子层,我们用 Q l Q_{l} Ql表示文本查询,用 K l K_{l} Kl表示键,用 V l V_{l} Vl表示值。请注意,视觉自我注意体系结构是置换不变的,因此我们使用添加到视觉查询和键中的固定位置编码[24,2]对其进行补充。我们不向文本分支添加额外的位置编码,因为每个文本标记都引用文本描述的特定方面,包括位置信息。规范化所有视觉和文本标记后,将对文本标记应用标准的自我注意机制:
式中 X q i = { q k i ∈ R T q × d } X^{i}_{q}=\{q_{k}^{i}\in\R^{\Tau_{q}\times{d}}\} Xqi={qki∈RTq×d}表示输入到接地编码器第i层的文本标记,norm(·)表示层规范化操作[1]。为了简洁起见,我们没有在公式中显示线性变换、激活、退出和快捷连接。而不是直接应用单独的自关注机制到归一化的视觉标记,视觉查询Qv不是直接对规范化的视觉标记应用单独的自我注意机制,而是用处理过的文本标记 X q i + 1 X^{i+1}_{q} Xqi+1的标记特定加权和来补充:
然后,文本信息补充的视觉查询 Q v ′ Q'_{v} Qv′以及视觉键和V值被用作另一个自我注意机制的输入,以更新视觉标记,该机制捕获对视觉基础任务至关重要的文本引导上下文信息:
与编码器类似,解码器也由N个相同层的堆栈组成。通过编码器,我们得到修改的视觉和文本标记,它考虑了视觉上下文和两种模式之间的相关性。然后,接地解码器将修改后的文本标记作为输入,作为接地查询,并另外处理修改后的可视标记。通过这种方式,我们在接地查询的指导下,借助于多头自我注意和编码器-解码器对两种模式的所有标记的注意,对文本引导的视觉特征进行解码。
解码器遵循转换器的标准架构,由四个子层组成:规范子层、自关注子层、编码器-解码器关注子层和完全连接的前馈子层。所有接地查询的自我注意机制与等式(4)相同。此外,我们将处理后的接地查询 Q l Q_{l} Ql作为Querys,接地编码器的文本引导上下文感知视觉标记 K v K_{v} Kv作为键, V v V_{v} Vv作为值,并使用一个multi-head编码器注意机制,然后使用一个完全连接的前馈网络来转换大小为d的K个嵌入:
我们用 P ∈ R K × d P∈\R^{K×d} P∈RK×d表示来自接地解码器的变换后的K嵌入,其中 K = T q K=T_{q} K=Tq表示基础查询的数量,d表示查询向量的大小。我们连接所有变换的向量,然后使用一个由两个完全连接的层组成的预测头,然后再激活ReLU,以回归到目标对象的中心点、宽度和高度。
在本文中,我们提出了Visual Grounding Transformer,,一种有效的端到端框架来解决可视化接地问题。我们建议在语言表达的指导下学习视觉特征。我们框架的核心是具有视觉和文本分支的基础编码器,捕获与语言语义一致的视觉上下文。实验表明,我们的方法比以前的Grounding方法有很大的优势。