这篇文章主要介绍利用深度学习的显著目标检测,对比各类算法探究形成综述。
原文地址:https://arxiv.org/pdf/1904.09146.pdf 若有个人误区及翻译错误,请及时评论指正。
目录
【第一章】介绍 6.23更新
【第二章】深度显著目标检测模型 6.24-6.25更新
【第三章】目标检测数据集 6.26更新
【第四章】评估指标 6.27更新
【第五章】基线和分析 6.27更新
【第六章】讨论 6.28更新
【第七章】总结 6.28更新
前言
作为一个重要的计算机视觉研究问题,近年显著目标检测(SOD)吸引了越来越多研究者的关注。意料之中的是,显著目标检测的最新研究已经由深度学习方法所主导(deep SOD),多百篇该领域文章的发表予以了印证。为了促进对深度显著目标检测的理解,本文提供一个全面的调查,涵盖多个算法的分类以及未解决的开放问题。首先,我们从不同的角度审视了SOD算法,从Network的架构,监督的级别,学习范式以及对象/实例的级别检测。之后,我们总结了现有的SOD评估数据集及评估标准。然后,我们根据他人已有的工作编制了一个覆盖主流SOD方法的基准,提供详细的结果分析。并且我们研究了不同SOD算法在各类数据集上的表现。最后,我们讨论了几个SOD未解决的问题的挑战,并且指出今后的潜在研究方向。所有的显著性预测图、构建的带注释的数据集,以及评估方法的代码都在https://github.com/wenguanwang/SODsurvey获取。
第一章:介绍
显著目标检测的目的是突出图像中的显著目标区域。凝视点检测(fixation prediction)起源于认知和心理学研究,与凝视点检测不同的是,目标检测受各种领域应用驱动:比如,在CV研究中,SOD可以应用于图像理解,图像描述,目标检测,无监督的视频目标分割,语义分割,行人重识别,等等;在计算机图形学中,SOD可以应用于非真实性渲染,图像自动裁剪,图像重定位,视频摘要等;在机器人领域中,可用于人机交互和目标发现等等。
得益于深度学习技术,显著性检测得到飞速发展。从2015年首次被介绍,深度SOD算法一直有着比传统算法更卓越的表现,并且在各类基准测试排行中霸榜。
第一节:History and Scope
与计算机视觉的其他任务相比,SOD的历史相对短暂。传统SOD模型主要依赖于低级特征并且受到如颜色对比、背景先验的启发。为了获得显著对象和清晰的对象区域,区域生成、超像素、OP算法(Object Proposals)经常集成于过分割过程。如下图Fig.1所示。
2015年以来,各类深度学习SOD相继提出。早期的SOD深度模型主要利用多层感知机分类器来预测从图像的每个处理单元提取的深度特征的显著性得分。之后,全卷积网络(FCN)成为了更主流的SOD架构。简要的SOD发展年表图如Fig.1。本文主要涵盖过去5年的研究进展,也为了完整性的需要,还包括了一些早期的相关工作。需要注意的是,本文主要注重单图像级别的显著性检测,将实例级SOD、RGB-D SOD、co-saliency detection、video SOD、FP、social gaze prediction 当做其它topic。
第二节:Related Previous Reviews and Surveys
Table 1 列出了已有综述。在文章2中,Borji等人审视了2015年之前的SOD方法,因此不涉及深度学习解决方案。最近,如文章4,综述研究已经扩展到传统非深度学习方法与深度学习方法的研究。文章5中,对协同分割(co-segmentation)的方法进行了分析,这是视觉显著性的一个分支,可以检测并分割来自多个相关图像的显著位置。文章6对几个SOD的扩展任务,如RGB-D SOD、co-salency detection 和 视频SOD进行了综述。文章7研究了目标检测的几个子方向,并总结了目标检测,显著目标检测,指定物品检测(COD)等研究。在文章1和文章8中,还是Borji等人总结了凝聚点检测的模型,并分析了几个特殊问题。文章3主要侧重于在不同应用领域内对视觉显著性(包括SOD和FP)进行分类。
不同于之前的综述文章,我们的文章系统、全面的对深度学习方法的SOD算法进行分析。特别地,我们几种基于分类法(based on proposed taxonomies)的深度学习方法,通过属性评估深入分析输入扰动的影响,讨论了深度SOD模型的对对抗攻击的鲁棒性,概括了现有数据集,为重要的开放性问题,挑战和未来方向提供见解,以促进读者对深度SOD模型的理解,并激发对诸如对SOD的对抗性攻击等公开问题的研究。
第三节:Our Contributions
本文的主要贡献可以概括为如下几点:
1)多角度(网络结构、监督级别、学习方式、对象/实例级)评价不同的深度SOD模型。
2)提出基于属性的深度SOD模型评估方法
3)讨论了输入扰动的影响
4)首次探讨对SOD模型的对抗性攻击分析,深度神经网络(DNNs)一些典型任务如识别已被证明易受视觉上难以察觉的对抗性攻击,这种攻击对深度SOD模型的影响尚未被探索。就此我们提出了精心设计的对抗性问题的baseline attack及评估,可作为未来深度SOD模型鲁棒性及可迁移性研究的baseline。
5)因为现有数据集都会包含一些偏差,我们使用了代表性的深度SOD算法对现有的SOD数据集进行跨数据集泛化研究。
6)对公开问题和未来的研究方向进行讨论。
第二章:深度显著目标检测模型
在分析最近所有的深度SOD模型前,我们将显著目标检测的任务定义如下:即将 input image(通常为三通道图像,经过SOD算法 F 后,获得二值显著目标,即binary salient object mask。那么在接下来的部分,我们将以下从4种分类方式介绍不同类别的深度SOD算法:1、经典网络结构 2、监督级别 3、学习范式 4、对象级和实例级
第一节 具有代表性的SOD网络结构
(1) 基于多层感知机(MLP)的模型
1)Super-pixel/patch based methods
基于MLP的模型通常为图像的每个处理单元提取深度特征,以训练显著性得分预测的MLP分类器,如图 Fig.2(a)所示,常用的处理单元包括 super-pixels/patches,或者 generic object proposals。
• MACL(Saliency Detection by Multi-Context Deep Learning) 传统SOD方法对于背景对比度低并且容易造成视觉混淆的图像不能产生好的显著性划分。针对此问题,这篇文章使用两个路径从两个超像素中兴不同的窗口提取局部和全局context,随后在同一的混合文本深度学习框架中联合建模。
• ELD (Deep saliency with encoded low level distance map and high level features) 使用VGG-net提取高级特征,低级特征与图像的其他部分进行比较生成低级距离图。然后使用具有多个1×1卷积和ReLU层的卷积神经网络(CNN)对低级距离图进行编码。我们将编码过的低级距离图和高级特征连接,并将它们送入全卷积网络分类器去评估显著区域。
• SuperCNN(Instance-Level Salient Object Segmentation) 本文提出MSRNet,首次进行显著实例分割。一共分三个步骤,一是估计显著性图,二是检测显著对象轮廓,三是识别显著对象实例,针对前两个步骤,此文提出多尺度细化网络,用于生成高质量的显著区域和显著轮廓。
2)Object Proposal based Methods
基于OP的模型利用Obejct Proposal(翻译:OP到底怎么翻译,目标建议?),或 bounding-boxes(框出目标区域),作为基本处理单元,自然而然的编码目标信息。
• LEGS(Deep Networks for Saliency Detection via Local Estimation and Global Search) 提出一种局部估计和全局搜索结合的SOD算法。在局部估计阶段,我们通过使用深度神经网络(DNN-L)来检测局部显著性,该神经网络学习局部块特征以确定每个像素的显著性值。通过探索高级目标概念,进一步确定估计的局部显著性图。在全局搜索阶段,将局部显著性图与全局对比度和几何信息一起用作描述一组对象候选区域的全局特征。
• MDF(Visual saliency based on multiscale deep features) 本文利用深度卷积神经网络(CNN)提取的多尺度特征可以获得高质量的视觉显着性模型。为了学习这类显着性模型,我们引入了一种神经网络体系结构,它在CNN上有完全连接的层,负责三个不同尺度的特征提取。然后,我们提出了一种改进方法,以提高我们的显着性结果的空间一致性。最后,为不同层次的图像分割而计算的多个显着性映射的聚合可以进一步提高图像分割的性能,从而产生比单一分割生成的显着性映射更好的显着性映射。
• MAP (Unconstrained Salient Object Detection via Proposal Subset Optimization) 我们的目的是在无约束图像中的检测显著性目标。 在无约束的图像中,显著目标的数量(如果有的话)因图像而异,没有给出。 我们提出了一个显著性目标检测系统,直接为输入图像输出一组紧凑的检测窗口。 我们的系统利用CNN来生成显著对象的位置建议。 位置建议往往是高度重叠和嘈杂的。 基于最大后验准则,我们提出了一种新的子集优化框架来从杂乱建议中生成一组紧凑的检测窗口。
• SSD (A shape-based approach for salient object detection using deep learning) 首先生成区域建议,然后用CNN对每个区域建议分类为具有标准二值图的预定义形状类。
(2) 基于全卷积网络(FCN)的模型
虽然优于以前的非深度学习SOD模型和具有深度学习特征的启发式模型,但基于MLP的SOD模型无法捕获显而易见的空间信息并且非常耗时。受全卷积网络在语义分割有着优越表现的影响,最新的深度SOD模型将流行的分类模型(例如VGGNet和ResNet)调整为全卷积模型,以直接输出spatial map而不是分类得分。这样,深度SOD模型可以在单个前馈传播过程中受益于端到端的空间显著表示并有效预测显著性图。典型的体系结构可以分为几类:单流网络(Single-stream network),多流网络(Multi-stream network),侧融合网络(Side-fusion network),自下而上/自上而下网络(Bottomup/top-down network)和分支网络(Branched network)。
1)Single-stream network 单流网络是标准的卷积层、池化层、激活层级联的序贯结构。可在Fig.2(b)中看到。
• RFCN (Saliency detection with recurrent fully convolutional networks) RFCN目前在PASCAL VOC2010分段数据集上进行了预训练,以学习语义信息,然后调整到SOD数据集以预测前景和背景。 显著性图是前景和背景分数的softmax组合。在本文中,我们通过使用循环完全卷积网络(RFCN)开发新的显着性模型更进一步。此外,循环体系结构使我们的方法能够通过纠正其先前的错误自动学习优化显着性映射。 为了训练具有多个参数的这样的网络,我们提出了使用语义分割数据的预训练策略,其同时利用对分割任务的强有力的监督以进行更好的训练,并使网络能够捕获对象的通用表示以用于显著性检测。
• RACDNN (Recurrent Attentional Networks for Saliency Detection)卷积 - 反卷积网络可用于执行端到端显着性检测。 但是,它们不适用于多尺度的物体。 为了克服这种限制,在这项工作中,我们提出了一种循环注意卷积 - 反卷积网络(RACDNN)。使用编码器 - 解码器流产生粗略显着图,并逐步确定不同的局部对象区域。 它利用空间变换器在每次迭代时处理图像区域以进行改进。
• DLS(Deep Level Sets for Salient Object Detection)深度网络难以区分对象边界内的像素,因此深度网络可能输出具有模糊显着性和不准确边界的映射。为了解决搜索问题,在这项工作中,我们提出了一个深层次的网络集来生成紧凑和统一的显着性图。利用一系列卷积层初始化显著图,然后在超像素级别对其进行细化。 水平集损失函数用于帮助学习二进制分割图。
• UCF(Learning Uncertain Convolutional Features for Accurate Saliency Detection)在本文中,我们提出了一种新的深度卷积模型,用于精确的显著目标检测。 这项工作的关键贡献是学习深度不确定的卷积特征(UCF),这可以提高显着性检测的鲁棒性和准确性。这个算法基于Deeplab算法,该算法位于具有扩张卷积层的FCN的顶部。 它通过几种启发式显著性方法的像素监督方法来学习潜在的显着性和噪声模式。
• LICNN(Lateral inhibition-inspired convolutional neural network for visual attention and saliency detection 没查到有此文,作者笔误了么,找到的请评论一下)
2)Muilti-stream network 单流网络如Fig.2(c)所示,通常具有多个网络流,每个网络流是多通道显著特征。 然后将来自不同流的输出组合在一起以进行最终预测。
• MSRNet(Instance-level salient object segmentation)由三个自底向上/自顶向下网络结构流组成,以处理输入图像的三个缩放版本。 这三个输出通过可学习的注意力模块最终融合。
• SRM(A stagewise refinement model for detecting salient objects in images)通过将它们从较粗糙的流中逐步传递到较为简单的流来逐步确定显著特征。 每个流的最顶层特征是使用地面实况显著性掩码进行监督。 金字塔池模块进一步促进了多阶段显着性融合和改进。
• FSN (Look, Perceive and Segment: Finding the Salient Objects in Images via Two-stream Fixation-Semantic CNNs) 受到人类观察事物的启发,显着的物体通常会获得人们的视觉关注,将眼睛注视流和语义流的输出融合到初始分割模块中以预测显著性。
3) Side-fusion network 侧融合网络将骨干网络的多层响应融合在一起用于SOD预测,利用CNN层次结构的固有多尺度表示,如Fig.2 (d)。 侧网络输出通常由GT监督,是深监督策略。
• DSS (Deeply Supervised Salient Object Detection with Short Connections) 增加了从较深侧输出到较浅侧输出的几个短连接。 通过这种方式,更高级别的功能可以帮助降低侧面输出以更好地定位显着区域,而较低级别的功能可以帮助丰富更高级别的侧面输出和更精细的细节。
• NLDF (Non-Local Deep Features for Salient Object Detection) 通过以自上而下的方式融合多级特征和对比度特征来生成局部显著性图,然后将局部地图与由顶层产生的全局地图集成以产生最终预测。 通过从平均池中减去特征来获得对比度特征。
• Amulet (Amulet: Aggregating Multi-level Convolutional Features for Salient Object Detection) 如何更好地聚合多级卷积特征图以进行显著对象检测尚未得到充分研究。我们的框架首先将多级特征映射集成到多个分辨率中,同时包含粗略语义和精细细节。多个聚合特征以自上而下的方式进一步确定。 在最终融合之前,在每个聚合特征处引入边界改进。多个聚合特征以自上而下的方式进一步确定。在最终融合之前,在每个聚合特征处引入边界改进。
• DSOS (Delving into salient object subitizing and detection) 在本文中,我们探讨了数值之间的相互作用。 为了从不同的角度解决多任务问题,我们提出了一种多任务深度神经网络,通过使用动态权重预测来增加子资源来检测显着对象。大量实验表明,subtizing knowledge(数学感知能力)为显着对象检测提供了强有力的指导。
• RADF (Recurrently aggregating deep features for salient object detection,未找到此文资源,如果有发一下链接) 利用综合的侧面特征来自我修复,并且重复这样的过程以逐渐产生明确的显着性预测。
• RSDNet-R (Revisiting salient object detection: Simultaneous detection, ranking, and subitizingofmultiplesalientobjects) 在门控机制下将早期层的初始粗略表示与细节特征相结合,以逐步地重新定义侧输出。 融合所有阶段的地图以获得整体显著性图。
4) Side-fusion network 侧面融合通过逐步合并来自较低层的空间细节丰富的特征来确定前馈过程中的粗略显著性估计,并在最顶层产生最终映射(见Fig2. e)。
• DHSNet (DHSNet: Deep Hierarchical Saliency Network for Salient Object Detection) 通过使用递归层逐渐组合较浅的特征来重新确定粗略显着图,其中所有中间图由GT显著图监督。
• SBF (Supervision by fusion:Towards unsupervised learning of deep salient object detector) 借用了DHSNet的网络架构,但是在几个未受监督的启发式SOD方法提供的弱基础事实下进行了训练。
• BDMP (Supervision by fusion:Towards unsupervised learning of deep salient object detector) 使用具有各种接收场的卷积层来确定多级特征,并通过门控双向路径实现层间交换。 重新定义的功能以自上而下的方式融合。
• RLN (Detect globally, refine locally: A novel approach to saliency detection) 使用类似inception的模块来净化低级功能。自上而下路径中的循环机制进一步改善了组合特征。边界改善网络增强了显著性输出。
• PAGR (Progressive attention guided recurrent network for salient object detection) 通过合并多路径循环连接以将更高级别的语义转移到更低层,增强了特征提取路径的学习能力。 自上而下的路径嵌入了几个通道空间注意模块,用于重新定义功能。