Object Detection by Labeling Superpixels(通过标记超像素检测目标)

                                                                Object Detection by Labeling Superpixels
Junjie YanYinan Yu  Xiangyu Zhu Zhen Lei Stan Z. Li National Laboratory of Pattern Recognition, Chinese Academy of Sciences Institute of Data Science and Technology, Alibaba Group Institute of Deep Learning, Baidu Research

                                        摘要

目标检测通常是通过对象建议书的生成和分类顺序进行的。本文以面向超像素的方式处理对象检测,而不是面向提议。特别地,通过最小化一个能量函数,将目标检测问题作为一个多标签的超像素标记问题。它使用数据代价项来捕捉外观,使用平滑代价项来编码空间上下文,使用标签代价项来支持紧凑检测。通过卷积神经网络了解数据成本,通过结构 SVM 了解标记模型中的参数。与提案生成和基于分类的方法相比,本文提出的超像素标记方法能够自然地检测出提案生成步骤遗漏的对象,并捕获全局图像上下文来推断重叠的对象。该方法在 Pascal VOC 和 ImageNet 中显示了其优越性。值得注意的是,它的表现优于 ImageNet ILSVRC2014 获奖者 GoogLeNet(地图中的 45.0 和 43.9),浅很多,CNN 也更少。

1. 引言

目标检测是一项计算机视觉任务,用于自动定位图像中感兴趣类别中的对象。从能够成功定位约束对象类别的早期方法(例如:人脸 [42、52 ]或行人 [8、11]开始,最先进的方法 15、20 将重点转移到具有较大外观变化的不同类别的检测,例如:Pascal VOC [13] 中的 20 个类别和 ImageNet [43] 中的 200 个类别。

虽然已有大量的工作被提出来进行目标检测,但其中大部分工作实际上是将目标检测转化为图像分类。它们首先生成对象建议书,然后通过图像分类技术对每个建议书进行独立分类。得到提议 38,52 的传统范例是使用滑动窗口来详尽地取样约 100,000 个边界框 随机的尺度和位置。最近流行的范例是根据低级别的图像线索,通过聚类或分割产生大约 2,000 条建议。然后,使用图像分类技术对每个提议进行分类。最近,由于稳健的低水平特征 【8、35】、复杂模型 【40、4、15 】和卷积神经网络 (CNN) 【28、46】,分类已经取得了巨大的进步。

通过变换,检测性能可以受益于图像分类的进步。在过去的二十年里,它使得人脸、行人和更一般的物体类别的检测有了很大的改进。然而,它也产生了两个问题。首先,如果在对象提议步骤中遗漏了一个对象,例如具有部分遮挡或异常纵横比的对象,则检测系统肯定会遗漏该对象。第二,提案的独立分类不能包含全局图像上下文,这对于检测重叠对象以及区分对象部分和对象本身非常重要。

为了缓解这两个问题,我们认为一个可能的解决方案是将检测焦点从提议转移到超像素。超像素对于图像来说是紧凑且有感知意义的原子区域。一个超像素中的像素可以安全地假设为属于同一个物体(只要超像素的尺度足够小),超像素可以灵活地组合在一起形成物体。在超像素级,对象之间的交互变得更加简单,这在对象级上是很难建模的。如果我们知道每个超像素的标签(例如,它属于什么类别的哪个对象),那么对象检测问题就变得微不足道了。为此,我们通过标记超像素进行对象检测。

然而,可靠的推断超像素的标签可能非常困难,由于它的外观含糊不清。本文通过在图像的超像素分割上构造一个能量函数,联合利用三种信息对整个图像进行分割。超像素的出现是由一个数据代价项捕获的,它是由 RCNN 【20】 从它所属区域的分类结果传播而来。

 上下文空间信息,例如两个超像素是否属于同一个对象,由平滑成本项捕获。由于紧凑检测总是受到青睐,我们添加了标签成本术语来惩罚使用的标签数量。这样,检测就变成了一个带有标签成本的多标签标记问题,基于-expansion 的方法如 【9 】可以用于近似推理。为了学习能量函数中的参数,例如不同项的权重,构造了一个支持向量机来最大化检测性能。

          需要注意的是,所提出的超像素标记方法更接近对象检测的本质定义,即推断所属对象的像素标签。如图 1 所示,对于滑动窗口和基于选择性搜索的方法,通过对每个提案进行分类来进行推理,并使用 NMS 等启发式方法对分类后的提案进行合并。相反,提出的方法推断标签的超像素全局得出的对象位置。所提出的基于超像素标记的检测的一个副产品是它可以为每个检测输出一个粗略的掩码,尽管只有边界框的注释被用于训练。

论文其余部分的结构如下。第 2 节审查了相关工作。基于超像素的检测的动机和超像素标记方法的细节在第 3 节和第 4 节中进行了描述。在第 5 节中我们给出了实验结果,最后在第 6 节中总结了本文。

2. 相关工作

目标检测的改进可以分为提案生成和提案分类。典型的趋势是提案数量越来越小,分类方法越来越复杂。

要生成对象建议,最直接和最常用的过程是用于穷举搜索的滑动窗口。它在早期的行人检测 【38】 和人脸检测 【52】 中得到了推广。目前公开的最先进的人脸检测技术 【37、5】 和行人检测【55,57】方法都是基于滑动窗口的。形变零件模型 (DPM) 是 Pascal VOC 2007-2011 中 champion 系统的基础,也是基于滑动窗口的。滑动窗口的主要缺点是,对于 640 X480 图像,建议的数量可能约为 O (106),由于评估效率,限制了分类的复杂性。

提出了各种减少提案数量的方法。在 【23 】中证明是有用的,到 【50 】普及。在 【50】 中,由 【16 】生成的超像素按层次分组形成对象建议书。提议的数量可以达到 2000 份,Pascal VOC 的召回率为 98 份,ImageNet 的召回率为 92 份。该方法的另一个优点是可以生成任意尺度和高宽比的建议,为一般的目标检测提供了更大的灵活性。该方法被 Pascal VOC 20 和 ImageNet 【46】 上的领先目标检测方法广泛使用。最近,许多方法进一步被建议获得更紧凑和更有效的对象建议,包括无监督的方法【 23,50,2】 和有监督的方法 【1,62,6,36】。对近期目标提议方法的评价和调查见 【24】。

 

你可能感兴趣的:(深度学习,目标检测,物体检测)