OPEN-VOCABULARY OBJECT DETECTION VIAVISION AND LANGUAGE KNOWLEDGE DISTILLATION

通过视觉和语言知识提炼进行开放词汇的物体检测

摘要

  1. 我们的目标是推进开放词汇的物体检测,它可以检测由任意文本输入描述的物体。
  2. 根本的挑战是训练数据的可用性。现有的物体检测数据集只包含数百个类别,而且进一步扩展成本很高。
  3. 为了克服这一挑战,我们提出了ViLD,一种通过视觉和语言知识提炼的训练方法。我们的方法是将预先训练好的开放词汇图像分类模型(教师)的知识提炼成两阶段的检测器(学生)。具体来说,我们使用教师模型来编码类别文本和物体建议的图像区域。然后我们训练一个学生检测器,其检测到的盒子的区域嵌入与教师推断的文本和图像嵌入相一致。我们以LVIS为基准,将所有罕见的类别作为训练期间未见的新类别。
  4. ViLD获得了16.1个掩码APr,甚至比以ResNet-50为骨干的有监督的对应模型还要好3.8。该模型可以直接转移到其他数据集而不需要进行微调,在PASCAL VOC、COCO和Objects365上分别获得72.2 AP50、36.6 AP和11.8 AP。在COCO上,ViLD比以前的SOTA(Zareian等人,2021年)在新的AP上高出4.8,在整体AP上高出11.4。

引言

OPEN-VOCABULARY OBJECT DETECTION VIAVISION AND LANGUAGE KNOWLEDGE DISTILLATION_第1张图片 

考虑到图1,我们是否可以设计出超越只识别训练标签中存在的基本类别(如玩具)的物体检测器,并扩大词汇量以检测新的类别(如玩具大象)?在本文中,我们旨在训练一个开放词汇的物体检测器,只使用基础类别的检测注释,并检测文本输入所描述的任何新类别的物体。现有的物体检测算法通常只学习检测检测数据集中的类别。增加检测词汇量的一个常见方法是收集具有更多标记类别的图像。研究界最近收集了具有大量词汇的新物体检测数据集(Gupta等人,2019;Kuznetsova等人,2020)。LVIS(Gupta等人,2019)是这些努力的一个里程碑,它建立了一个有1203个类别的数据集。有了如此丰富的词汇,为所有类别收集足够的训练实例变得相当有挑战性。根据Zipf定律,物体类别自然遵循长尾分布。要为罕见的类别找到足够的训练实例,需要指数级的更多数据(Gupta等人,2019),这使得扩大检测词汇表的成本很高。另一方面,互联网上有大量配对的图像-文本数据。最近,Radford等人(2021)使用4亿个图像-文本对训练一个联合视觉和语言模型,并在直接转移到30多个分类数据集上展示了令人印象深刻的结果。预训练的文本编码器是对任意文本类别进行零距离转移能力的关键。尽管在学习图像层面的表征方面取得了巨大的成功,但学习对象层面的表征用于开放性词汇检测仍然是一个挑战。

在这项工作中,我们考虑借用预先训练的开放词汇分类模型的知识来实现开放词汇检测。我们从R-CNN(Girshick等人,2014)式的方法开始。我们把开放词汇检测变成两个子问题:1)广义物体提议和2)开放词汇图像分类。我们使用基础类别中的例子训练一个区域提议模型。然后,我们使用预先训练好的开放词汇图像分类模型对裁剪后的物体提议进行分类,这些提议可以包含基础类别和新类别。我们以LVIS(Gupta等人,2019)为基准,将所有罕见的类别作为新的类别,将其他类别作为基础类别。令我们惊讶的是,新类别的性能已经超过了其监督的对应类别。然而,这种方法对于推理来说是非常缓慢的,因为它将对象建议逐一送入分类模型。为了解决上述问题,我们提出了ViLD(视觉和语言知识提炼)来训练两阶段的开放词汇检测器。ViLD由两部分组成:用文本嵌入(ViLD-text)和由开放词汇图像分类模型推断的图像嵌入(ViLD-image)学习,例如CLIP(Radford等人,2021)。在ViLD-text中,我们通过将类别名称输入预训练的文本编码器来获得文本嵌入。然后,推断出的文本嵌入被用来对检测到的区域进行分类。类似的方法已经被用于之前的零散和开放词汇检测工作(Bansal等人,2018;Rahman等人,2018;Zareian等人,2021)。我们发现与视觉数据共同学习的文本嵌入可以更好地编码概念之间的视觉相似性,与从语言语料库学习的文本嵌入相比,例如GloVe(Pennington等人,2014)。使用CLIP文本嵌入在LVIS上实现了10.1APr(新类别的AP),大大超过了使用GloVe的3.0APr。在ViLD-image中,我们通过将对象建议输入预训练的图像编码器来获得图像嵌入。然后我们训练一个物体检测器,其检测到的方框的区域嵌入与这些图像嵌入相一致。与ViLD-text相比,ViLD-image从基础和新的类别中提炼知识,而ViLD-text只学习基础类别的概念。我们表明,从文本和图像嵌入中共同学习的ViLD在LVIS上取得了16.1的APr,比有监督的对应方高出3.8。为了突破性能极限,我们使用ALIGN(Jia等人,2021)作为更强大的教师模型,并获得了26.3APr的最佳性能,这比使用额外技巧的2020年LVIS挑战赛冠军(Tan等人,2020)仅差3.7APr。我们还在COCO(Lin等人,2014)上获得了最先进的结果。我们的方法比之前的SOTA(Zareian等人,2021年)在新的类别上的表现要好4.8AP,在所有类别上的表现要好11.4AP。此外,在LVIS上训练的ViLD可以直接转移到其他检测数据集,包括Objects365、COCO、PASCAL VOC。

相关工作

增加视觉识别中的词汇量。设计一个能够使用大词汇量识别物体的计算机视觉模型是一个长期的研究问题。

  1. 其中一个重点是零点识别,目的是识别训练集中不存在的类别。早期的工作(Farhadi等人,2009;Rohrbach等人,2011;Jayaraman和Grauman,2014)使用视觉属性来创建一个代表类别的二进制编码簿,用来将学到的知识转移到未见过的类别。在这个方向上,研究人员还探索了类的层次性、类的相似性和对象的部分,作为帮助知识转移的鉴别性特征(Rohrbach等人,2011;Akata等人,2016;Zhao等人,2017;Elhoseiny等人,2017;Ji等人,2018;Cacheux等人,2019;Xie等人,2020)。
  2. 另一个重点是学习对齐潜在的图像-文本嵌入,这允许使用任意的文本对图像进行分类。Frome等人(2013)和Norouzi等人(2014)是利用深度学习学习视觉-语义嵌入空间的开创性工作。Wang等人(2018)从单词嵌入和知识图谱中提炼信息。在最近的工作中,CLIP(Radford等人,2021)和ALIGN(Jia等人,2021)通过收集百万/十亿规模的图像-文本对,然后使用对比学习来训练联合图像-文本嵌入模型,从而突破了极限。配备了来自互联网的大量图像-文本知识,这些模型可以直接转移到一套分类数据集并取得令人印象深刻的表现。虽然这些工作的重点是图像层面的开放词汇识别,但我们的重点是使用任意的文本输入检测物体

在物体检测中增加词汇。对于大词汇量的物体检测来说,扩大数据收集的规模是很昂贵的。零照检测提供了另一个方向。大多数零点检测方法将区域特征与基础类别中的预训练文本嵌入对齐(Bansal等人,2018;Demirel等人,2018;Rahman等人,2019;Hayat等人,2020;Zheng等人,2020)。然而,这些方法与有监督的对应方法有很大的性能差距。为了解决上述问题,Zareian等人(2021)提出使用图像标题预训练骨干模型,并通过检测数据集对预训练模型进行微调。相比之下,我们使用图像-文本预训练模型作为教师模型来监督学生物体检测器。所有以前的方法都只在几十个类别上进行评估,而我们是第一个在超过1000个类别上进行评估的。

OPEN-VOCABULARY OBJECT DETECTION VIAVISION AND LANGUAGE KNOWLEDGE DISTILLATION_第2张图片

3.方法

在这一节中,我们介绍了我们的方法中的三个主要部分:新型物体的定位,用预训练的文本嵌入学习(ViLD-text),以及用预训练的图像嵌入学习(ViLD-image)。图2展示了我们方法的概况。我们还研究了模型组合的方法,以获得最佳的检测性能。

符号。我们将物体检测数据集中的注释根据其类别划分为两个子集。我们用CB和CN表示基本类别和新类别。只有CB中的注释被用于训练。我们用T(-)表示文本编码器,用V(-)表示预训练的开放词汇图像分类模型中的图像编码器。

3.1 新颖类别的物体提议

开放式词汇检测的第一个挑战是对新颖物体进行定位。我们为此修改了一个标准的两阶段物体检测器,例如Mask R-CNN(He等人,2017)。我们将其特定类别的定位模块,即第二阶段的边界盒回归和掩码预测层,替换为一般对象建议的类别无关模块。对于每个感兴趣的区域,这些模块只预测一个边界框和一个所有类别的掩码,而不是每个类别一个预测。与类别无关的模块可以泛化到新的物体。

3.2 带交叉区域的开放词汇检测

一旦候选物体被定位,我们建议重新使用预先训练好的开放词汇图像分类器,对每个区域进行分类检测。

OPEN-VOCABULARY OBJECT DETECTION VIAVISION AND LANGUAGE KNOWLEDGE DISTILLATION_第3张图片

 

你可能感兴趣的:(开放集识别,目标检测,计算机视觉,深度学习)