论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述

Title: Advanced Deep-Learning Techniques for Salient and Category-Specific Object Detection: A Survey

Abstract: Object detection, including objectness detection (OD), salient object detection (SOD), and category-specific object detection (COD), is one of the most fundamental yet challenging problems in the computer vision community. Over the last several decades, great efforts have been made by researchers to tackle this problem, due to its broad range of applications for other computer vision tasks such as activity or event recognition, content-based image retrieval and scene understanding, etc. While numerous methods have been presented in recent years, a comprehensive review for the proposed high-quality object detection techniques, especially for those based on advanced deep-learning techniques, is still lacking. To this end, this article delves into the recent progress in this research field, including 1) definitions, motivations, and tasks of each subdirection; 2) modern techniques and essential research trends; 3) benchmark data sets and evaluation metrics; and 4) comparisons and analysis of the experimental results. More importantly, we will reveal the underlying relationship among OD, SOD, and COD and discuss in detail some open questions as well as point out several unsolved challenges and promising future works.

Keywords: NONE

题目:用于突出和特定类别目标检测的高级深度学习技术综述

摘要:对象检测,包括对象性(Objectness 注释:本质上是物体存在于感兴趣区域内的概率的度量。如果我们Objectness很高,这意味着图像窗口可能包含一个物体。这允许我们快速地删除不包含任何物体的图像窗口)检测objectness detectionOD)、显著对象检测(salient object detectionSOD特定类别对象检测(category-specific object detectionCOD,是计算机视觉领域最基本但最具挑战性的问题之一。在过去的几十年里,由于其在其他计算机视觉任务中的广泛应用,如活动或事件识别、基于内容的图像检索和场景理解等,研究人员已经做出了巨大的努力来解决这个问题。尽管近年来出现了许多方法,对所提出的高质量目标检测技术,特别是基于先进深度学习技术的目标检测技术仍缺乏全面的综述。为此,本文深入探讨了该研究领域的最新进展,包括1)每个方向的定义、动机和任务;2) 现代技术和基本研究趋势;3) 基准数据集和评价指标;4)实验结果的比较与分析。更重要的是,我们将揭示OD、SOD和COD之间的潜在关系,详细讨论一些悬而未决的问题,并指出几个尚未解决的挑战和有希望的未来工作。

关键词:

文章出处:IEEE SIGNAL PROCESSING MAGAZINE

影响因子:15.204 (2021年)

作者: Junwei Han; Dingwen Zhang; Gong Cheng; Nian Liu; Dong Xu

作者单位:Northwestern Polytechnical University;Carnegie Mellon University;

The University of Sydney

1.引言

       在过去几十年中发表的目标检测研究论文大致可以分为三个方向:OD、SOD和COD。具体而言,OD旨在检测出现在每个给定图像中的所有可能的对象,而不考虑特定的对象类别。通常,OD算法输出数千个候选对象(object proposals)假设对象(hypotheses),如图1(a)所示,这可以有利于广泛的计算机视觉任务,如弱监督学习和对象跟踪。

       SOD是目标检测的另一个方向,旨在模仿视觉注意力机制,突出显示从每个给定图像中引起我们注意的物体。这受到了人类视觉注意力系统的启发,该系统可以引导人们特别关注少数信息性图像区域,这些区域是自然不同的(自下而上的显著性),或与由认知现象决定的某些对象类别有关,如知识、期望、奖励和特定任务(自上而下的突出性)。通常,SOD算法基于获得的显著性图输出有限数量的对象区域,如1(b)所示。它们还可以受益于广泛的计算机视觉任务,如图像检索和对象分割。

       目标检测的第三个方向是COD。与OD不同,COD旨在从每个给定的图像中检测多个预定义的对象类别。它不仅需要识别可能包含感兴趣对象的图像区域,还需要识别每个检测到的图像区域的特定对象类别。与SOD相比,COD有着完全不同的动机,即它倾向于解决纯粹的计算问题,而不了解人类视觉系统中的功能,例如视觉注意力。通常,COD被转换为多类分类问题,其中判别分类函数被训练来分离相应特征域中提取的图像区域。COD的主要挑战是如何处理类内外观变化和类间外观相似性。如图1(c)所示,COD方法通常输出分配有所识别的对象类别的多个图像区域。COD可应用于计算机视觉任务,如场景解析和人类动作识别

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第1张图片

1. 目标检测的三个研究方向:(aOD、(bSOD和(cCOD

本文主要有四个动机:

1. 目标检测,包括ODSODCOD,是计算机视觉的一个基本但具有挑战性的问题。现有的调查文件只关注每个单独的主题,而没有讨论密切的关系。

2. 于近年来已经提出了许多方法并取得了突破性的性能,因此回顾最近提出的目标检测技术,特别是那些基于深度学习技术的目标检测方法将是有启发性的。

3. 对几个重要问题进行深入讨论是非常有意义的。例如,为什么最近的基于深度学习的框架可以显著提高对象检测的性能?与以前的框架相比,这种框架最本质的改进是什么?基于深度学习的方法在未来需要解决哪些问题?

4. 对公开的目标检测基准的实验结果进行全面的比较和分析,将有助于读者更好地了解每种目标检测策略的性能以及相应的网络架构。

2.预备知识

       CNNs被设计用于处理以多个阵列形式出现的数据,例如,由三个二维阵列组成的彩色图像,其中包含三个彩色通道中的像素强度。利用自然信号特性的细胞神经网络背后有四个关键思想:局部连接、共享权重、池化和多层的使用。如图2所示,典型CNN模型的架构由一系列层组成,如下所示:

1. 卷积层:卷积层是特征提取中最重要的层。前几个层通常捕捉低级特征(如边、线和角),而更深的层能够通过组合低级特征来学习高级特征(如结构、对象和形状)。卷积层中的每个单元通过一组称为滤波器组的内核连接到前一层的特征图中的局部补丁。该局部加权和的结果然后通过非线性运算,例如整流线性单元(ReLU)。要素图中的所有单位共享相同的过滤器组。卷积层中的不同特征图使用不同的滤波器组。

2. 池化层:汇集层旨在降低表示的维度,并创建对小偏移和失真的不变性。池化层通常放置在两个卷积层之间。池化层的每个特征图都连接到其对应的先前卷积层的特征图。典型的池单元计算一个特征图中单元的局部补丁的最大值。

3. 全连接层:全连接层通常用作网络的最后几层,以便根据最终决策更好地总结较低级别层传达的信息。由于完全连接层占据了大部分参数,因此很容易发生过拟合。为了防止这种情况,通常采用丢弃法(dropout method)

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第2张图片

2. 典型CNN模型的体系结构

从2012年AlexNet在ImageNet分类方面取得突破性成功开始,在开发各种CNN模型方面做出了重大努力,包括VGGNet、GoogLeNet和ResNet。

3.目标检测现代方法

3.1 OD中的现代方法

从2012年AlexNet在ImageNet分类方面取得突破性成功开始,在开发各种CNN模型方面做出了重大努力,包括VGGNet、GoogLeNet和ResNet。

3.目标检测现代方法

3.1 OD中的现代方法

OD的目标是选择一小组候选对象(object proposals),这些建议涵盖了给定图像中大多数感兴趣的对象。为了实现这一目标,OD方法需要:

1)生成或选择可能包含某个感兴趣对象的潜在边界框,以及

2)推断所选边界框的对象性得分。

我们通常可以将现有的OD方法分为三大类:region merging, window selecting, and box regressing。

3.1.1 Region-merging approaches

       区域合并方法(Region-merging approaches)试图通过合并多个局部图像区域(例如,超像素)来生成候选对象(object proposals)。一种代表性的区域合并方法是众所周知的选择性搜索(selective search)方法,该方法应用贪心算法(greedy algorithm)将图像区域迭代地分组在一起。具体来说,首先计算所有相邻区域之间的相似性。然后,将两个最相似的区域分组在一起,并计算得到的区域与其邻居之间的新相似性。重复这样的分组过程,直到整个图像变成单个区域。

3.1.2 Window-selecting approaches  

       窗口选择方法(Window-selecting approaches)试图通过对[预生成(滑动)窗口,pregenerated (sliding) windows]进行评分和选择来生成候选目标(object proposals)

3.1.3 Box-regressing approaches

       边框回归方法(Box-regressing approaches)试图通过直接学习回归函数来生成候选目标,以从提取的深度特征图中获得边界框位置(bounding-box locations)对象性得分(objectness scores)

3.2 SOD中的现代方法

       SOD包括两个分支:自下而上和自上而下(bottom-up and top-down)。前者是刺激驱动(stimulus driven)的,主要响应视觉场景中最有趣和最显眼的区域,而后者是由知识和高级视觉任务引导的,例如有意寻找特定类别的对象。

3.2.1 Bottom-up SOD

       自下而上的SOD旨在准确区分视觉场景中的前景目标和背景。传统模型主要依赖于对比提示。最近,随着深度学习的巨大进步,深度神经网络(DNN)也被用来提高SOD的性能。除此之外,近年来还提出了许多基于CNN的SOD方法。

3.2.2 Top-down SOD

       自上而下的SOD通常旨在突出显示场景中特定类别的对象

3.3 COD中的现代方法

       在过去的几十年里,COD在文献中得到了广泛的研究。可变形的组件模型(deformable part modelDPM[Object detection with discriminatively trained part-based models]及其变体多年来一直是领先的方法。这些方法采用人为手动设计的图像描述符(image descriptors)作为特征,并扫描整个图像以检测具有类特定最大响应的区域。COD方法通常有两大类:基于候选目标(object proposal)的方法和基于回归(regression)的方法。

3.3.1 Object proposal-based approaches

       基于object proposal的COD框架首先通过使用区域建议方法(如选择性搜索(selective search))生成一组可能包含目标的候选边界框(该过程也称为OD),然后将检测到的候选目标传递给CNN分类器,以确定它们是背景还是来自特定对象类别。简而言之,R-CNN的工作原理如下。首先,它通过选择性搜索算法提取了大约2000个可能包含对象的自下而上的区域建议,以降低计算成本。然后,将这些区域建议扭曲为固定大小(例如,227×227),并使用微调的CNN模型从中提取CNN特征。接下来,使用类别专用线性支持向量机(category-specific linear support vector  machinesSVM)将每个区域建议分类为对象或非对象。最后,通过使用边界框回归器来细化定位,将候选边框重新修改为检测到的对象。这里,值得一提的是,用于从候选区域中提取深度CNN特征的CNN模型通常在基于ImageNet数据集[28]的图像分类辅助任务上进行预训练,然后在具有边界框注释的小图像集上进行微调,用于检测任务。

       然而,在R-CNN中,我们必须反复将候选边界框调整为固定大小,以提取其CNN特征,这对于COD来说计算成本很高。为了加快R-CNN的速度,一些工作[18]、[55]、[56]提出在特征提取中共享计算。例如,空间金字塔池网络(spatial

pyramid pooling network, SPPnet)[55]引入了一个空间金字塔池化层,以放松输入必须具有固定大小的约束。与R-CNN不同的是,SPPnet从整个图像中精确提取一次特征图,独立于候选区域,然后对每个候选区域应用空间金字塔池化,以获得固定长度的表示。这种重组使得计算可以在所有候选区域之间轻松共享。SPPnet的一个缺点是,SPPnet中的微调算法只能更新完全连接层,这使得无法联合训练CNN特征提取器和SVM分类器来进一步提高性能。为了修正这一缺点,提出了fast R-CNN[18],这是SPPnet的端到端可训练细化。在fast R-CNN的框架下,所有网络层都可以在微调过程中进行更新,从而简化了学习过程,提高了检测精度。

       R-CNN和fast R-CNN的框架都需要region proposals的输入,这些region proposals通常来自handcrafted region proposal methods,如选择性搜索和EdgeBox。然而,候选区域的生成是整个通道中的瓶颈。为了解决这个问题,提出了faster   R-CNN,它由两个模块组成。第一个被称为候选区域网络(regional proposal network,RPN),是一个FCN,用于生成将被输入第二模块的候选区域(每个候选区域都有一个proposal bounding box和一个objectness score)。第二个模块是用于对象检测的fast R-CNN网络。faster R-CNN将候选区域生成和目标检测结合到一个统一的网络中,其中RPN模块与fast R-CNN检测网络共享相同的卷积特征;因此,它实现了几乎无成本的候选区域生成。

3.3.2 Regression-based approaches

       基于回归的COD方法被公式化为具有空间分离的边界框和相关类概率的回归问题。与object proposal based methods相比,基于回归的框架(用于COD)要简单得多,因为它不需要候选区域生成和随后的像素/特征重采样阶段,并且将所有阶段封装在单个网络中。注意,边框回归OD方法和回归COD方法之间的主要区别在于,前者的目标是预测边框位置和每个边框位置的一个对象性得分,而后者的目的是预测每个边框位置的边框位置和对象类别得分(其维度取决于所需对象类别的数量)。本质上,为回归COD设计的模型通常比为边框回归OD设计的模型复杂得多,因为前者需要同时处理候选区域定位和对象类别识别的任务。因此,多任务损失函数在基于回归的COD中比在边框内回归OD中更常用。You Only Look Once(YOLO)和Single Shot MultiBox Detector(SSD)是两种具有代表性的基于回归的方法(用于COD)。

4. OD、SOD和COD的关系

       尽管OD、SOD和COD是目标检测中三个单独的研究方向,但它们之间可以有丰富的关系。

4.1 OD与SOD的关系

       一方面,bottom-up SOD能够为OD提供信息性的先验知识。直观地说,提取的对人类视觉系统更具吸引力(在图像场景中更突出)的边界框位置更有可能包含感兴趣的对象。基于这一观察结果,已经通过依赖于一些显著性线索(saliency cues)设计了几种OD方法。利用SOD的检测原理可以有效地配制OD。

另一方面,一些bottom-up SOD方法也建立在OD结果的基础上。当提供有由OD生成的边界框时,SOD问题可以简化为从非奇异边界框中选择显著边界框。基于这种直觉,Chang等人[68]提出将对象性先验(包括对象大小和位置)和显著性先验相结合,通过统一的图形模型来检测显著对象。姜等人[69]将对象性先验与聚焦性和对象性相结合,以保持检测到的SOD显著区域的完整性。李等人[70]提出将从注视预测中获得的具有高显著性值的候选对象视为显著对象。由于SOD需要均匀地突出完整的显著对象,这与传统的只需要突出不同的局部区域的显著性检测不同,因此对象的可感知性应该自然地编码到有效的SOD模型中。客观性先验自然为这一需求提供了一个有效的解决方案。

4.2 COD与SOD的关系

       由于top-down SOD是高度任务驱动和知识驱动的,它需要对视觉场景的高度理解,尤其是对场景中对象的类别级信息的理解。为了实现在场景中定位目标,top-down SOD方法通常需要获得自上而下的知识来指导检测过程。这种自上而下的知识可能来自内存(即,使用来自相应训练数据的知识来定位场景中的对象,这是基于模型的目标检测)或目标关联(即,利用已知或未知样本来定位场景内的相应对象,这就是基于样本的目标检测。

       除SOD外,top-down SOD尤其可以为COD提供有用的类别特定对象先验,特别是在弱监督下。

4.3 COD与OD的关系

       广泛的研究表明,OD可以直接从COD任务中受益。本质上,正如在“Object Proposal-Based Approaches”一节中总结的那样,COD方法的一个主流是建立在OD技术之上的,其中OD可以作为单独的预处理步骤或在统一的目标检测框架中设计的内在组件。建立在OD技术基础上的COD方法通常比建立在基于滑动窗口的搜索策略基础上的方法获得更好的性能,因为OD技术可以在目标检测任务之前提供有用的定位,这可以显著减少对许多背景图像区域的不必要搜索,从而有效地减少误报。

       大多数OD方法中的参数需要从收集的训练集中学习,这些训练集通常来自PASCAL VOC基准测试(benchmark),本质上,这种具有少于20个类别的对象人工标注框的训练数据可以被视为learning objectness detectors的受限知识库,因为训练数据集中只有有限的对象类别,尽管一些研究已经证明了他们提出的方法,[2]和[17]仍然能够为看不见的目标生成候选目标,即不包含在训练数据集中的对象类;由于相当大的域偏移,这种方法可能或多或少地产生性能下降。值得一提的是,最近的一项研究[31]提出了特定类别的OD方法,该方法与COD方法具有相似的目标。

5. 基准和评估指标

5.1 OD基准

       OD中广泛使用两个基准:PASCAL VOC 2007的测试集和MS COCO的验证集。具体而言,PASCAL VOC 2007的测试集包含来自20个类别的4952个图像和14976个对象实例。大量的目标和种类、视点、比例、位置、遮挡和照明的高度多样性使得该数据集在评估OD方法时非常受欢迎,因为OD的目标是在不同的图像场景中找到所有可能的目标。MS COCO基准测试包含80000个训练图像和总计约500000个实例注释。该数据集中的图像是从复杂的日常场景中收集的,这些场景包含自然环境中的常见目标。因此,它是一个更具挑战性的数据集,用于检测objectness proposals。在大多数情况下,用于评估OD性能的实验是在前5000 MS COCO验证图像上进行的。有时,另一个未重叠的5000张图像被用作验证数据集。

5.2 SOD基准

       SOD community中有几个具有不同性质的基准数据集。ECSD数据集[81]有1000个图像,SOD数据集[82]中有一些重叠的图像。这两个数据集中的图像通常具有杂乱的背景和来自不同位置和尺度的具有语义意义的前景对象。PASCA L-S数据集建立在PASCAL VOC分割挑战的基础上,具有850幅图像,这些图像通常包含杂乱的背景和多个前景对象。HKU-IS数据集是最近发布的SOD数据集,包含4447张图像。这些图像是从许多具有挑战性的情况中收集的,这些情况包括多个断开的显著对象、显著对象接触图像边界以及低颜色对比度。DUT-OMRON数据集由5168个图像组成,每个图像通常具有复杂的背景,并包含一个或两个前景对象。THUR15K数据集包含来自五个对象类别的6232幅图像,即蝴蝶、咖啡杯、跳狗、长颈鹿和飞机。此数据集中的某些图像没有前景对象。MSRA-10K数据集包含10000个具有各种对象的图像,是MSRA-B数据集的扩展。这两个数据集中的大多数图像只有一个前景对象和清晰的背景。SED数据集是另一个广泛使用的包含200个图像的数据集。此数据集中的每个图像都包含一个和两个前景对象。

5.3 COD基准

       PASCAL VOC 2007和PASCAL VOC 2012数据集是评估各种物体检测方法最常用的两个基准。PASCAL VOC 2007数据集共包含来自20个对象类别的9963幅图像,包括5011幅用于训练和验证的图像和4952幅用于测试的图像,其中手动标记了20个目标类型的人工标注边界框。PASCAL VOC 2012数据集是PASCAL VOC 2007数据集的扩展,该数据集共包含22531张图像,其中11540张用于训练和验证,10991张用于测试。然而,在测试集中没有提供人工标注标签。因此,应通过向PASCAL VOC评估服务器提交测试结果来评估所有方法。

       MS COCO是2014年提出的一种新的物体检测基准,其目标是通过将物体识别问题放在更广泛的场景理解问题的背景下,来提高物体识别的技术水平。该数据集在每个类别的实例数上明显大于PASCAL VOC数据集。具体而言,该数据集包含20多万幅图像和80个对象类别,其中训练集由8万幅图像组成,验证集由4万幅图像构成,测试集由8万多幅图像构成。为了限制过度拟合,并让研究人员更灵活地测试他们的方法,测试集分为三部分,包括测试开发、测试标准和测试挑战。测试开发用于调试和验证实验,并允许无限制地提交到评估服务器。测试标准用于维护提交后更新的公共排行榜。测试挑战用于竞赛。大多数已发表的作品都在测试开发集上报告了它们的检测结果。

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第3张图片论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第4张图片

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第5张图片

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第6张图片

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第7张图片

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第8张图片

论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第9张图片

 论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第10张图片

 论文阅读--用于突出和特定类别目标检测的高级深度学习技术综述_第11张图片

6. 讨论

6.1 深度学习带来的优势

       基于我们的分析,基于深度学习的对象检测器带来的优势可以概括为以下四个方面。

6.1.1 强大的特征表示

       开发基于深度学习的目标检测器的最重要原因之一是在学习过程中建立的强大的特征表示。这一点在[10]中得到了明确的证明,其中Girschick等人使用一种广泛使用的HOG特征及其扩展版本,将他们提出的基于CNN的对象检测器的COD结果与DPM[54]基线进行了比较。

6.1.2 端到端学习

       基于深度学习的目标检测方法的另一个优点是其端到端的学习框架。众所周知,传统的目标检测方法通常需要单独的计算块,如特征提取和模式分类。基于深度学习的方法(例如,OD的[17]和[36],SOD的[20]和[87],COD的[18]和[57])可以仅通过一个统一的CNN模型从原始输入图像中获得所需的目标检测结果。与传统方法相比,这种端到端的学习方式可以带来两个好处:

1.它可以在很大程度上降低传统对象检测方法中从多个候选到每个计算块选择最优方法的复杂性。

2.以这种端到端的方式进行学习可以基于学习目标来确定整个模型的参数。

与传统的方法(用于设计手工特征)相比,这种学习方式可以显著减少整个系统中有用信息的损失。

6.1.3多阶段、多任务目标

得益于端到端的学习范式,基于深度学习的现代对象检测方法可以灵活地在多个学习阶段和多个学习任务中涉及所需的学习目标。例如,在OD中,FastMask[36]提出的深度网络包含语义特征提取和基于滑动窗口的建议生成的学习阶段。学习目标包括三个方面:置信度损失、分割损失和区域注意力损失。

6.1.4大规模学习和知识转移

与浅层架构的学习模型相比,深度学习模型的成功主要是由于大量的隐藏神经元,这通常会导致数百万个自由参数。因此,DNN通常需要大规模的训练数据来实现其完整的学习能力,这使得深度模型能够从训练数据中捕获比浅层模型丰富得多的模式。

6.2 未来研究方向

尽管基于深度学习的目标检测方法最近在这一研究领域取得了巨大成功,但未来仍有几个具有挑战性但有趣的研究方向需要考虑。

6.2.1使用有限的人工注释训练目标检测器

尽管最近的基于深度学习的对象检测方法获得了显著的性能提升,但对象检测研究领域的问题在实践中仍然在很大程度上没有得到解决,因为这些方法中的大多数严重依赖于无与伦比的大量人类标记的训练数据。在这种情况下,人们被花费精力和时间进行乏味的数据注释以训练深度对象检测器的巨大负担所拖累。根据我们的统计数据,需要花费大约15秒(在LabelMe等一些辅助工具的帮助下)来绘制一个可以正确包围感兴趣对象的边界框注释。考虑到这一点,可能有数十万个训练图像需要手动注释,并且每个图像可能包含来自不同类别的多个对象。为了缓解这个问题,弱监督对象检测方法[3]、[13]、[76]、[99]近年来受到了广泛的关注。然而,所获得的性能仍然远远不能令人满意——它们只能达到相应的完全监督对象检测方法所获得性能的50%。因此,仍然需要进一步努力来解决这一问题。

6.2.2检测看不见的目标类别

大多数现有的目标检测方法都是针对来自与训练集中相同的目标类别集合的图像进行评估的。然而,物体检测的最终目标是检测给定测试图像中任何可能类别的所有物体。从本质上讲,在现实世界的应用程序中,我们缺乏足够的所有对象类别的注释。广泛使用的PASCAL VOC和MS COCO基准测试分别只包含20个和80个目标类别,这远远不够。ILSVRC目标检测基准包含200个对象类别,但这仍然不够。在许多类别都没有边界盒级注释的情况下,一个未来的方向是建立基于零样本学习的方案(用于目标检测),其中现有检测器和这些检测器之间的跨概念/类别映射的组合可以让我们为看不见的类构建目标检测器。作为SOD的一个新兴分支,共生检测[92]-[94]和事件显著性检测[95]方法也可能是检测看不见的物体/事件的可能方法,因为它们可以从任何给定的图像/视频组中学习,这些图像/视频包含同时发生但未知的物体/事情。

6.2.3提高检测鲁棒性的新学习策略

另一个未来方向是增加对用不平衡数据或噪声数据训练的目标类别的检测鲁棒性。这里的不平衡问题主要是指对象检测中不同类别的样本数的长尾分布。长尾特性表示少数目标类经常出现,而大多数其他类很少出现的现象。例如,在PASCAL VOC和ImageNet对象检测数据集中,诸如人之类的目标类别比诸如羊之类的其他目标类别具有更多的样本。一些分析和实证结果表明,具有更多样本的对象类别将主导学习的对象检测器,导致具有较少样本的其他对象类别的学习不足。因此,解决这个问题的一个未来方向是建立新的学习方案,以在不同的对象类别中使用更均匀分布的样本数进行学习。得益于一些最新的生成学习模型,如生成对抗性网络(GANs),可以通过从潜在噪声向量中合成可用数据来丰富“尾部”的对象类别的样本。相反,大规模的人工标注不可避免地会引入噪声标注,如缺失标注或错误标注。为了解决人类注释中的噪声问题,进一步的研究可以设计基于加权的学习机制(例如基于自定步学习[94]、[96]和课程学习[97]、[98]的模型),以在学习对象类别的人类注释具有噪声时进一步提高学习鲁棒性。

6.2.4 OD、SOD和COD的统一学习框架

当前在目标检测领域的研究已经提出了一些有效的基于深度学习的框架,如[40]和[41],同时用于OD和COD。实验结果表明,通过联合优化OD和特定类别检测任务的网络参数,网络可以进一步探索这些任务之间的潜在关系,并捕获可以从这两项任务中受益的常见信息模式。从本质上讲,如前所述,OD、SOD和COD之间存在丰富的关系。因此,建立新的框架,特别是基于深度学习的框架,以同时解决这三个方向上的常见问题是非常有意义的。一种可能的方法是建立一个深度网络,将注意力建模、建议挖掘和类别识别的块结合到一个统一的学习框架中。通过这种方式,学习模型可以捕捉到三个任务之间共享的信息模式,从而进一步提高每个任务的性能。

6.2.5 基于检测的更高层次视觉理解

最近先进的物体检测技术的出现促进了一些以前从未涉及过的更高层次的视觉理解任务的发展。这种任务的一个代表性示例被称为图像/视频字幕。该任务的基本目标是自动生成一个句子来描述任何给定图像/视频的内容。对象检测技术可以提供对象位置和类别的关键信息,用于解释图像/视频场景中的事物是什么,它们被放置在哪里,以及它们对交互式对象做了什么。从本质上讲,准确的对象检测是连接视觉领域和语言领域的关键。沿着这条研究路线,仍有许多尚未探索但有趣的基于检测的应用程序(更高级别的视觉理解任务)构成了未来研究方向的另一个分支。

7. 结论

在这篇文章中,我们回顾了对象检测的最新进展,它主要基于先进的深度学习技术。具体而言,回顾了OD、SOD和COD这三个目标检测方向的现代方法、基准数据集和评估指标。我们全面分析了这些方向之间的关系,对深度学习的优势进行了深入的讨论,并提出了一些可能的未来方向。

你可能感兴趣的:(目标检测,深度学习,人工智能,OD,SOD,COD)