(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】

原文链接:https://arxiv.org/abs/1904.09146?context=cs.CV

本文主要对深度学习在显著性检测领域的相关论文、核心期刊以及会议上发表的论文进行了研究调查,形成综述。

【前言】

作为计算机视觉中的一个重要问题,显着性物体检测(SOD)多年来吸引了越来越多的研究工作。SOD的最新进展主要由深度学习型解决方案(名为深度SOD)主导,并由数百篇已发表的论文反映出来。为了促进对深度SOD的深入理解,在本文中,作者提供了一个全面的调查,涵盖从算法分类到未解决的开放问题的等各个方面。首先从不同角度审视深度SOD算法(第二章),包括网络架构、监督级别、学习范式和对象/实例级别检测。之后,总结了主流的SOD数据集(第三章)和评估标准(第四章)。然后,在别人工作的基础上编写了一个覆盖主流SOD方法的全面性能的基准(第五章),并提供详细的测试结果分析。最后讨论了目前显著性检测存在的问题和挑战以及今后可能的研究方向(第六章)。第七章总结。所有显着性预测图、构建的带注释的数据集和评估代码都可以在https://github.com/wenguanwang/SODsurvey上公开获得。

 

目录

【第一章】

【第二章】

2.1 SOD典型网络结构

2.1.1 多层感知器Multi-layer Perceptron (MLP)

2.1.2 完全卷积网络Fully Convolutional Network (FCN)

2.1.3 基于混合网络的方法Hybrid Network

2.2 监督等级

2.2.1 强监督方法

2.2.2 无/弱监督方法(未来导向)

2.3学习范式

2.3.1基于单任务学习(STL)的方法

2.3.2基于多任务学习(MTL)的方法

2.4 对象/实例级SOD

2.4.1 对象级方法

2.4.2 实例级方法(不常见)

【第三章】

3.1 早期SOD数据集

3.2 现代流行的SOD数据集

3.3 其他特殊SOD数据集

【第四章】

4 评估指标


 

【第一章】

        显著性检测(SOD)是为了突出图像中显著的目标区域,不同于起源于认知和心理学研究领域的凝视点预测(预测人眼的下一个关注点是什么,应用于广告投放点、游戏设置等),被广泛应用于不同的领域。如采样应用:图像理解、图像描述生成、目标检测、无监督视频目标分割、予以分割、行人重识别等;计算机图形学中:非真实感渲染、图像自动裁剪、图像重定向、视频摘要等;在机器人领域中:人机交互、目标发现等。

        2015年深度学习的方法首次应用于显著性检测,较好的算法性能使其成为研究的一个转折点。

        显著性检测综述整理:https://blog.csdn.net/qq_32493539/article/details/79530118(程明明论文)

(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第1张图片

           在本文中,作者对现有的SOD方法和数据集进行了分类研究,还研究了一些重要的但在很大程度上尚未得到充分研究的问题,如SOD中特征的影响,以及SOD模型的鲁棒性和可移植性。对于这些之前没有的研究,作者构建了新的数据集和标记,并在前人研究的基础上推导出baseline(评价算法好坏的参照,benchmark:评价算法好坏的规则)。

           下表是对之前的一些关于显著性检测综述代表性论文总结:

(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第2张图片

补充:6 RGB-D显著性检测模型(热点研究方向),RGBD = RGB +  Depth Map,如下图所示。主要通过组合深度图的有关深度信息来实现对显著性区域的抽取。四者之间的关联如下图所示。

co-saliency detection模型引入图像间对应约束来找到一个图像组中共同的显著性目标。

video saliency detection模型的目的是定位一个视频序列中具有动作相关性的显著性目标,这个模型同时考虑了运动线索和时空约束。

 

(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第3张图片

(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第4张图片

本文主要贡献如下:

1、从网络结构、监督级别、学习范式、对象级/实例级等对现有的深度SOD模型进行分类和总结;

2、提出一种基于属性特征的深度SOD模型性能评价方法(?不理解这个说法  ?程明明提出SOC数据集也是这个说法),并提供了考虑对象类别、场景类别、挑战因素的带标注的属性特征,在此基础上对常用的六种SOD模型的性能进行了评估,并讨论了这些属性特征对不同算法的影响以及深度学习技术带来的改进;

3、加入关于输入扰动影响的讨论,研究了不同类型的图像扰动对六种典型SOD算法的影响,该项研究有望为噪音频繁出现的实际应用提供帮助;

4、首次对SOD模型进行对抗性攻击,并为这一问题的研究精心设计了baseline attack和评估,可以作为未来研究深度SO的模型的鲁棒性和可移植性的baseline;

5、具有代表性的极限模型对现有的SOD数据集进行跨数据集泛化综合研究;

6、对还存在的问题以及未来可能的研究方向进行讨论。

补充:

什么是对抗攻击?

由于机器学习算法的输入形式是一种数值型向量(numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击。

和其他攻击不同,对抗性攻击主要发生在构造对抗性数据的时候,之后该对抗性数据就如正常数据一样输入机器学习模型并得到欺骗的识别结果。在构造对抗性数据的过程中,无论是图像识别系统还是语音识别系统,根据攻击者掌握机器学习模型信息的多少,可以分为如下两种情况:

白盒攻击:攻击者能够获知机器学习所使用的算法,以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。

黑盒攻击攻击者并不知道机器学习所使用的算法和参数,但攻击者仍能与机器学习的系统有所交互,比如可以通过传入任意输入观察输出,判断输出。

 

【第二章】

我们对深度SOD算法分为四个分类来进行回顾,表2提供了综合摘要。

2.1 SOD典型网络结构

2.1.1 多层感知器Multi-layer Perceptron (MLP)

基于MLP的方法通常为图像的每个处理单元提取深度特征(a),以训练用于显着性得分预测的MLP分类器,如图2(a)所示。 常用的处理单元包括超像素/补丁和通用对象建议。

(1)基于超像素和补丁的方法使用常规(补丁)或类常规(超像素)图像分解:

  • MCDL :使用两条路径从两个不同大小的超像素(像素级划分为区域级)中心窗口中提取局部和全局上下文,这些窗口被送入MLP进行前景/背景分类。

    (更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第5张图片

 

(2)基于对象建议(建议框)的方法:LEGS、MDF、MAP、SSD

缺点:不能够很好的捕捉关键的空间信息;时间开销很大,因为需要逐个处理可视化子单元

2.1.2 完全卷积网络Fully Convolutional Network (FCN)

FCN在语义分割方面有良好的表现,可将VGGNet和ResNet直接调整为完全卷积网络模型,输出空间地图而不是分类分数。该模型受益于端到端的空间表示学习,典型架构可以分为 :单流网络、多流网络、侧融合网络、自下而上/自上而下网络和分支网络。

(1)单流single-stream network(b):RFCN、RACDNN、DLS、UCF、DUS、LICNN

是一种标准体系结构,由连续级联的卷积层,池化层和非线性激活操作组成。

(2)多流Multi-stream network(c):MSRNet、SRM、FSN

具有多个网络流,每个网络流用特定分辨率的输入进行训练,以明确地学习多尺度显着特征。 然后将来自不同流的输出组合在一起以进行最终预测。

(3)侧融合Side-fusion network(d):DSS、NLDF、Amulet、DSOS、RADF、RSDNet-R

将骨干网的多层响应融合在一起用于SOD预测,利用CNN层级的固有多尺度表示。 侧面输出通常由地面真实值监督。

  • DSS:通过组合来自不同级别的特征,所得到的体系结构在每一层提供丰富的多尺度特征图。框架的两个优点:一是高级特征可以转化为较浅的侧输出层帮助更好地定位最显著的区域;较浅输出层可以丰富低级特征。

(4)自下而上/自上而下Bottom-up/top-down network(e):DHSNet、SBF、BDMP、RLN、PAGR、ASNet、PiCANet、RAS

通过逐步合并来自较低层的空间细节丰富的特征来优化前馈过程中的粗略显着性估计,并在最顶层生成最终显著图。

  • DHSNet:首先通过自动学习多种全局显著性线索来进行初步的全局预测,包括全局对比度、对象性、紧凑度和这些线索的组合。然后一个深度循环卷积神经网络(HRCNN)根据局部的信息分层逐步地精细化显著图的细节。整体的结构是从全局到局部,从粗到精的过程。

(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第6张图片

(5)分支Branched network(f):SU、DS、WSS、ASMO、C2S-Net

是单输入多输出结构,其中底层共享信息以处理常见输入,顶层专用于不同输出。 

2.1.3 基于混合网络的方法Hybrid Network

一些深度SOD方法结合了基于MLP和FCN的子网,旨在利用多尺度上下文产生边缘保留检测(见图2(g))。例:DCL、CRPSD。

不同网络结构对应的示意图如下所示:

(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第7张图片

2.2 监督等级

基于人为标注saliency mask是否被用于训练,深度显著性检测模型可以分为强监督方法和无/弱监督方法。

2.2.1 强监督方法

强监督深度显著性检测模型得益于使用大规模的人为标注的图片进行训练,但是人为标注图片耗时又耗力,而且还存在过拟合的问题,因此如何通过更少的人为标注来训练深度显著性检测模型成为一个越来越热门的研究方向。

2.2.2 无/弱监督方法(未来导向)

非/弱监督学习是指没有任何特定的地面真实值监督的学习。 为了摆脱费力的手工标记,一些SOD方法努力使用图像级分类标签预测显着性或由启发式非监督SOD方法生成的伪像素显着性注释。 实验表明这些方法与现有技术具有可比性。

1)(对象)类别级别的监督。已经表明,用图像级标签训练的分层深度特征能够定位包含对象的区域,这有望提供有用的线索来检测场景中的显着对象。因此,当前的大规模图像分类数据集也可用于训练深度SOD模型以定位显着对象

2)伪像素级监督。虽然信息量很大,但图像级标签太稀疏而无法产生精确的像素显着性分割。一些研究人员建议利用传统的非监督SOD方法或轮廓信息自动生成?噪声显着图?,逐步细化并用于为训练更有效的深度SOD模型提供更精细的像素级监督。
•SBF 通过融合过程生成显著性预测,该融合过程整合了几个经典的非监督显着物体探测器在图像内和图像间水平产生的弱显著图。
•ASMO  使用图像分类标签和启发式非监督SOD方法的噪声图来训练多任务FCN。前三级激活图的粗略显著性和平均图被馈送到CRF模型中以获得用于微调SOD子网更精细的映射。
•DUS  联合学习由几种传统的非监督SOD方法生成的嘈杂显著图中的潜在显著性和噪声模式,并为下一次训练迭代生成更精细的显着性图。

2.3学习范式

从不同学习范式的角度来看,SOD网络可以分为单任务学习(STL)和多任务学习(MTL)。

2.3.1基于单任务学习(STL)的方法

在机器学习中,标准方法是一次学习一项任务。 大多数深度SOD方法都属于这种学习范式。 他们利用来自单一知识领域的监督来训练SOD模型,也使用SOD域或其他相关领域,如图像分类[85]。

2.3.2基于多任务学习(MTL)的方法

受人类学习过程的启发,从相关任务中学到的知识可用于帮助学习新任务,多任务学习(MTL)旨在同时学习多个相关任务。通过合并来自相关任务的额外训练信号的领域特定信息,模型的泛化能力得到改善。在任务之间共享样本也会导致缺乏用于训练重参数模型的数据,例如深度学习中的模型,特别是在任务相关注释有限的非/弱监督学习范例下。
主要表现在同一网络结构上训练不同的任务、学习多领域知识、共享底层特征信息等。
当前基于MTL的SOD模型通常训练有诸如显着对象数感化?(salient object subitizing)、注意力预测、图像分类、噪声模式学习、语义分割和轮廓检测等任务。共享特征表示的学习提高了概括能力以及两个任务的表现。
噪声模式建模从现有的启发式非监督SOD方法生成的噪声显着图中学习噪声模式,旨在提取用于监督SOD训练的“纯”显着图。
•DUS (Deep unsupervised saliency detection):将传统方法( handcrafted saliency methods)得到的检测结果视作 ground truth + noisy, 作为监督来同时训练一个显著性检测模块和噪声模块,优化显著图效果。

2.4 对象/实例级SOD

SOD的目标是定位和分割图像中最引人注目的对象区域。 如果输出掩码仅表示每个像素的显着性而不区分不同的对象,则该方法属于对象级SOD方法; 否则,它是一个实例级SOD方法。

2.4.1 对象级方法

大多数SOD方法是对象级方法,即被设计为在不知道各个实例的情况下检测属于显着对象的像素。

2.4.2 实例级方法(不常见)

实例级SOD方法使用明确的对象标签生成显着性掩码,能够获取更详细的被检测显着区域的详细信息。 实例级信息对于需要更精细区分的许多实际应用至关重要。
•MAP(maximum a posteriori):该方法首先生成许多候选对象框,然后选择分数较高的输出。许多之前的方法只能解决前景分割的任务,即生成密集的前景掩膜(显著性图),这些方法不会使每个目标个别化。 本文中的方法所解决的显著性目标检测任务,其中包括对每个显著目标个体化。(PS:显著性目标检测与物体类别检测的最大区别在于显著性检测很大程度上取决于周围环境)

后期阅读程明明论文:Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation

 论文地址:http://mftp.mmcheng.net/Papers/18ECCVGraphPartition.pdf

旷视科技和清华大学通过原创性地整合显著性检测和图划分算法等多种技术,提出一种新型弱监督学习方法,加速语义分割发展,推动该技术在自动驾驶、安防、新零售、物流等行业的落地和普及。这一方法的最大技术亮点是既利用每个显著性实例的内在属性,又挖掘了整个数据集范围内不同显著性实例的相互关系。

 

【第三章】

随着SOD的快速发展,引入了大量的数据集,这些数据集在SOD模型训练和基准测试中都发挥着重要作用。
表3总结了17个代表性数据集。 早期的SOD数据集通常收集每个通常有一个显着对象的图像,并提供被认为不足以进行可靠评估的边界框注释[30],[121]。 之后,出现了带有像素级掩模的大型数据集,其中包含非常有限数量的对象和简单背景的图像。 最近,收集了复杂或杂乱场景中每个图像具有多个显着对象的数据集。 特别是,一些数据集提供了诸如数字或实例级信息之类的外部注释。 图3显示了16个可用数据集的注释分布。

(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】_第8张图片

3.1 早期SOD数据集

早期的SOD数据集通常包含简单的场景,其中1~2个显着对象从简单的背景中脱颖而出。

1、MSRA-A 包含从各种图像论坛和图像搜索引擎收集的20,840张图像。每个图像都有一个清晰,明确的对象,相应的注释是三个用户提供的边界框的“多数协议”。
2、MSRA-B 作为MSRA-A的一个子集,有5000个图像,由9个用户使用边界框重新标记。与MSRA-A相比,MSRA-B的模糊度较低。突出的对象。 MSRA-A和MSRA-B的性能变得饱和,因为大多数图像仅包括围绕中心位置的单个且清晰的显着物体。
3、SED 包括单个对象子集SED1和双个对象子集SED2,每个子集包含100个图像并具有逐像素注释。图像中的物体通过各种低级线索(例如强度,纹理等)与周围环境不同。每个图像由三个主体分割。如果至少两个受试者同意,则将像素视为前景。
4、ASD 包含1,000个具有逐像素地面真实性的图像。图像选自MSRA-A数据集,其中仅提供显着区域周围的边界框。 ASD中的精确突出掩模是基于对象轮廓创建的。

3.2 现代流行的SOD数据集

最近出现的数据集往往包括具有相对复杂背景且包含多个显着对象的更具挑战性和一般场景。 在本节中,我们将回顾七种最受欢迎且广泛使用的内容。 它们的受欢迎程度大致归因于高难度和改进的注释质量。
1、SOD 包含来自伯克利分割数据集的120张图像。每个图像由七个主题标记。许多图像具有多个与背景或触摸图像边界具有低色彩对比度的显着对象。 可提供像素注释。
2、MSRA10K ,也称为THUS10K,包含从MSRA中选择的10,000张图像,涵盖所有1,000张图像ASD中的图像。图像具有一致的边界框标记,并且进一步使用像素级注释进行扩充。由于其大规模和精确的注释,它被广泛用于训练深SOD模型(见表2)。
3、ECSSD 由1,000幅图像组成,这些图像具有语义上有意义但结构复杂的自然内容。地面真相面具由5名参与者注释。
4、DUT-OMRON 包含5,168张相对复杂背景和高内容多样性的图像。每个图像都伴有像素级地面实况注释。
5、PASCAL-S 包含从PASCAL VOC 2010的val集中选择的850个具有挑战性的图像。除了眼睛固定记录之外,还提供了大致像素方式和非二元显着对象注释。
6、HKU-IS 包含4,447个复杂场景,通常包含多个具有相对多样空间分布的断开对象,即至少有一个显着对象触及图像边界。此外,类似的前/后地面外观使这个数据集更加困难。  

7、DUTS 最大的SOD数据集,包含10,553个训练和5,019个测试图像。训练图像选自ImageNet DET训练集,以及来自ImageNet测试集和SUN数据集的测试图像。自2017年以来,许多深度SOD模型都接受了DUTS训练集的培训(见表2)。

3.3 其他特殊SOD数据集

除了上面提到的“标准”SOD数据集之外,最近提出了一些特殊的数据集,这些数据集有助于捕获SOD中的不同方面并带来了相关的研究方向。例如,其中一些使用实例级注释构建数据集、一些包括没有显着物体的图像等等。
1、SOS 用于SOD的数感化,即在没有太多耗时检测过程的情况下预测显着对象的数量。它包含从现有数据集中选择的6,900张图像,每个图像都标记为包含0,1,2,3或4+个显着对象。 SOS被随机分成训练(5,520张图像)和测试集(1,380张图像)。
2、MSO 是SOS测试集的子集,包含1,224个图像。它具有关于显着对象数量更均衡的分布,并且每个对象都用边界框注释。
3、ILSO MSRNet(multiscale refinement network)提出者创建具有1,000个图像,具有像素级实例级显着性注释和粗略轮廓标记,其中基准测试结果使用MSR-Net生成, ILSO中的大多数图像都是从[26],[34],[52],[67]中选择的,以减少对显着对象区域的模糊性。
4、XPIE 包含10,000个带有明确显著对象的图像,这些图像用像素级的地面真实值进行标记。它涵盖了简单和复杂的场景,并包含不同数量、大小和位置的显着对象。 它有三个子集:Set-P包含625个具有地理信息的感兴趣的地方; Set-I包含8,799个带有对象标签的图像; 和Set-E包括576个带有视觉注意力视标记的图像。
5、SOC 又是程明明论文中提出的数据集,针对SOD数据集中的不足,创建了拥有杂乱背景的SOC数据集,有6,000个图像,共有80个常见类别。包含了来自日常物体类别的显著和非显著物体的图像。 除了物体类别的标注之外,每个显著图像都伴随着能够反映现实世界场景中识别挑战性的相关属性。

【第四章】

4 评估指标

有几种方法可以衡量模型预测和手工标记之间的一致性。 本节回顾四种普遍认可和普遍采用的SOD模型评估方法。
(1)Precision-Recall(PR)基于二值化显着性掩模和基本事实计算:

为了获得二进制掩码,应用一组范围从0到255的阈值,每个阈值产生一对精确/调用值以形成用于描述模型性能的PR曲线。

(2)F-measure 通过计算加权调和平均值综合考虑精度和召回:

β2根据经验设定为0.3 [30],以更多地强调精确度。 一些方法直接使用图中的最大Fβ值,而另一些方法使用自适应阈值[30],即预测显着图平均值的两倍,以生成二元显著性映射并给出相应的平均F测量值。

(3)平均绝对误差(MAE):尽管上述两个指标很受欢迎,但它们未能考虑真正的负像素。 MAE用于通过测量归一化映射S∈[0,1] W×H和地面真实值掩码G∈{0,1} W×H之间的平均像素方向绝对误差来解决这个问题:

(4)加权Fβ测量(Fbw)通过交替计算精度和召回的方式直观地归纳F-measure。 它将四个基本量TP,TN,FP和FN扩展为实际值,并根据邻域信息为不同位置的不同误差分配不同的权重(ω),定义如下:

(5)结构测量(S-measure)【程明明论文】,与上述仅解决像素级错误的指标不同,评估实际显著图和二元地面真实值之间的结构相似性。 S-measure(S)考虑两个术语So和Sr,分别指对象感知和区域感知结构相似性:

α根据经验,通常设置为0.5。

(6)增强对齐度量(E-measure):同时考虑图像和局部像素匹配的全局方式:

其中φS是增强的对齐矩阵,它分别反映了在减去它们的全局均值之后S和G之间的相关性。

(7)显着对象排名(SOR)设计用于显着对象数感化,其被计算为在同一图像中的多个显着对象的地面实况等级顺序rgG和预测等级顺序rgS之间的标准化Spearman的秩次相关性:

其中cov(·)计算协方差,σ{·}表示标准差。


 

 

你可能感兴趣的:(基于深度学习的显著性检测)