Visual Saliency Based on Multiscale Deep Features

Visual Saliency Based on Multiscale Deep Features

https://arxiv.org/pdf/1503.08663.pdf

基于多尺度深度特征的视觉显著性

摘要

视觉显著性是认知和计算科学(包括计算机视觉)的基本问题。在本文中,我们发现可以从使用深度卷积神经网络(CNN)提取的多尺度特征中学习高质量视觉显著性模型,其在视觉识别任务中已经取得了许多成功。为了学习这种显著性模型,我们引入了一种神经网络结构,它在CNN之上具有全连接层,负责三种不同尺度的特征提取。然后,我们提出了一种改进方法,以增强我们的显著性结果的空间连续性。最后,聚合为不同级别的图像分割计算的多个显著性图可以进一步提高性能,从而产生比由单个分割产生的显著性图更好的显著性图。为了促进对视觉显著性模型的进一步研究和评估,我们还构建了一个新的大型数据库,包括4447个具有挑战性的图像及其像素显著性注释。实验结果表明,我们提出的方法能够在所有公共基准上实现最先进的性能,在MSRA-B数据集和新数据集(HKU-IS)上分别将F-Measure提高5.0%和13.2% ),并将这两个数据集的平均绝对误差分别降低5.7%和35.1%。

 

1.引言

1.简介

视觉显著性试图确定人类视觉和认知系统引导图像中各个区域的注意力[6]。因此,它是心理学,神经科学和计算机视觉中的基本问题。计算机视觉研究人员专注于开发计算模型,用于模拟人类视觉注意过程或预测视觉显著性结果。视觉显著性已被结合到各种计算机视觉和图像处理任务中以改善其性能。这些任务包括图像裁剪[31],重定目标[4]和摘要[34]。最近,视觉识别也越来越多地使用视觉显著性任务[32],如图像分类[36]和人物识别[39]。

参与视觉注意过程的人类视觉和认知系统由相互连接的神经元层组成。例如,人类视觉系统具有简单和复杂细胞层,其激活由落入其感受野的输入信号的大小确定。由于深层人工神经网络最初受到生物神经网络的启发,因此使用深度人工神经网络构建视觉显著性的计算模型是一种自然的选择。具体而言,最近流行的卷积神经网络(CNN)特别适合这项任务,因为CNN中的卷积层类似于人类视觉系统中的简单和复杂细胞[14],而CNN中的全连接层类似于更高层次的推断和决策在人类认知系统中制造。

在本文中,我们使用卷积神经网络计算的多尺度深度特征开发了一种新的视觉显著性计算模型。深度神经网络,如CNN,最近在视觉识别任务中取得了许多成功[24,12,15,17]。这种深度网络能够自动从原始像素中提取特征层次结构。此外,使用这种网络提取的特征非常通用,并且通常比传统的手工制作的特征更有效。受此启发,我们使用最初通过ImageNet数据集训练的CNN进行特征提取[10]。由于ImageNet包含大量对象类别的图像,因此我们的特征包含丰富的语义信息,这对于视觉显著性非常有用,因为人们对来自不同语义类别的对象进行不同程度的关注。例如,图像的观看者可能比天空或草更注重像汽车这样的物体。在本文的其余部分,我们将这些特征称为CNN特征。

通过定义,显著性是由视觉对比度产生的,因为它直观地表征图像的某些部分,这些部分看起来相对于其相邻区域或图像的其余部分突出。因此,为了计算图像区域的显著性,我们的模型应该能够评估所考虑的区域与其周围区域以及图像的其余部分之间的对比度。因此,我们从三个嵌套且越来越大的矩形窗口中提取每个图像区域的多尺度CNN特征,这些矩形窗口分别包围所考虑的区域,其紧邻的区域和整个图像。

在多尺度CNN特征之上,我们的方法进一步训练全连接的神经网络层。将连接的多尺度CNN特征馈送到使用标记显著图集合训练的这些层中。因此,这些完全连接层起到回归量的作用,该回归量能够从围绕图像区域的嵌套窗口提取的多尺度CNN特征推断出每个图像区域的显著性得分。众所周知,可以训练具有至少一个全连接层的深度神经网络,以实现非常高水平的回归精度。

我们已经在现有数据集上广泛评估了基于CNN的视觉显著性模型,同时注意到缺乏用于训练和测试显著性模型的大型且具有挑战性的数据集。目前,唯一可用于训练基于深度神经网络的模型的大型数据集来自MSRA-B数据集[26]。多年来,该数据集变得不那么具有挑战性,因为那里的图像通常包括远离图像边界的单个显著对象。为了便于研究和评估高级显著性模型,我们创建了一个大型数据集,其中图像可能包含多个显著对象,这些对象在图像中具有更一般的空间分布。我们提出的显著性模型在这个新数据集以及所有现有数据集上显著优于所有现有显著性模型。

总之,本文有以下贡献:

提出了一种新的视觉显著性模型,用于将嵌套窗口中提取的多尺度CNN特征与具有多个全连接层的深度神经网络相结合。使用来自一组标记显著图的区域来训练用于显著性估计的深度神经网络。

通过进一步整合基于CNN的显著性模型与空间连续性模型和多级图像分割,提出完整的显著性框架。

为显著性模型研究和评估创建了一个新的具有挑战性的数据集HKU-IS。该数据集是公开的。我们提出的显著性模型已在此新数据集以及所有现有数据集上成功验证。

 

1.1相关工作

视觉显著性计算可以分为自下而上和自上而下的方法或两者的混合。自下而上模型主要基于中心周围对比度方法,通过线性或非线性组合的低级视觉属性(如颜色,强度,纹理和方向)计算主显著图[19,18,1,8,26]。自上而下的方法通常需要在计算过程中结合高级知识,例如目标和面部检测器[20,7,16,33,25]。

最近,已经做出很多努力来设计判别特征和显著性先验。大多数方法基本上遵循区域对比度框架,旨在设计更好地表征图像区域相对于其周围区域的独特性的特征。在[26]中,三个新颖的特征与条件随机字段集成在一起。在[33]中提出了一种基于低秩矩阵恢复的模型,以将低级视觉特征与更高级别的先验集成。

显著性先验,例如中心先验[26,35,23]和边界先验[22,40],被广泛用于启发式地组合低级特征并改善显著性估计。这些显著性先验要么与其他显著性提示直接结合作为权重[8,9,20],要么用作基于学习算法的特征[22,23,25]。虽然这些经验先验可以改善许多图像的显著性结果,但是当显著对象偏离中心或显著地与图像边界重叠时,它们可能会失败。值得注意的是,在我们的框架中并没有忽略目标位置线索和基于边界的背景建模,而是通过多尺度CNN特征提取和神经网络训练,隐式地融入到模型中。

卷积神经网络最近在视觉识别任务中取得了许多成功,包括图像分类[24],目标检测[15]和场景解析[12]。多纳休等人[11]指出从Krizhevsky的CNN中提取的在ImageNet数据集[10]上训练的特征可以重新用于通用任务。Razavian等人[30]扩展了他们的结果并得出结论,使用CNN进行深度学习可以成为任何视觉识别任务的有力候选者。然而,在视觉显著性研究中尚未探索CNN特征,主要是因为使用[11,30]中考虑的相同框架无法解决显著性问题。它是与周围区域的对比,而不是图像区域内应该为显著性预测而学习的内容。本文提出了一种简单但非常有效的神经网络结构,使深CNN特征适用于显著性建模和显著目标检测。

 

2.深度特征的显著性推断


如图1所示,我们基于深度特征的视觉显著性模型的体系结构包括一个输出层和两个全连接的隐藏层,位于三个深度卷积神经网络之上。我们的显著性模型要求输入图像被分解为一组非重叠的区域,每个区域内部具有几乎统一的显著性值。三个深度CNN负责多尺度特征提取。对于每个图像区域,它们从三个嵌套且逐渐变大的矩形窗口执行自动特征提取,这三个矩形窗口分别是所考虑区域的边界框,其紧邻区域的边界框和整个图像。从三个CNN中提取的特征被馈送到两个全连接层中,每个层具有300个神经元。第二个全连接层的输出被馈送到输出层,输出层执行双向softmax,产生二进制显著性标签上的分布。当为输入图像生成显著性图时,我们在图像的每个区域上重复运行我们训练的显著性模型,以产生该区域的单个显著性得分。该显著性分数进一步转移到该区域内的所有像素。

Visual Saliency Based on Multiscale Deep Features_第1张图片

 

2.1多尺度特征提取

我们使用最初使用Caffe[21]训练的深度卷积神经网络为每个图像区域提取多尺度特征,这是一个用于CNN训练和测试的开源框架。该CNN的架构有八层,包括五个卷积层和三个全连接层。从第二个全连接层的输出中提取特征,该层具有4096个神经元。虽然这个CNN最初是在用于视觉识别的数据集上训练的,但是自动提取的CNN特征变得非常通用,并且比其他视觉计算任务上的传统手工制作特征更有效。

由于图像区域可能具有不规则形状,而CNN特征必须从矩形区域提取,以使CNN特征仅与区域内的像素相关,如[15],我们定义用于CNN特征提取的矩形区域成为图像区域的边界框,并填充区域外的像素,但仍然在其边界框内,所有ImageNet训练图像中的相同位置的平均像素值。平均减法后这些像素值变为零,对后续结果没有任何影响。我们将边界框中的区域扭曲成227x227像素的正方形,以使其与为ImageNet训练的深CNN兼容。然后将变形的RGB图像区域馈送到深CNN,并且通过将平均减去的输入图像区域向前传播通过所有卷积层和全连接层来获得4096维特征向量。我们将此向量特征命名为A.

特征A本身不包括所考虑的图像区域周围的任何信息,因此不能分辨该区域相对于其邻域以及图像的其余部分是否显著。为了包括所考虑区域周围区域的特征以理解其邻域中的对比度,我们从矩形邻域中提取第二特征向量,该矩形邻域是所考虑区域及其紧邻区域的边界框。此边界框中的所有像素值保持不变。再次,这个矩形邻域在被扭曲后被馈送到深CNN。我们从CNN特征B调用结果向量。

众所周知,显著性计算中一个非常重要的线索是区域相对于图像其余部分的(颜色和内容)唯一性程度。图像区域在整个图像中的位置是另一个关键提示。为了满足这些要求,我们使用深CNN从整个矩形图像中提取特征C,其中所考虑的区域用平均像素值掩蔽以指示区域的位置。这三个不同尺度的特征向量一起定义了我们用于显著性模型训练和测试的特征。由于我们的最终特征向量是三个CNN特征向量的串联,我们称之为S-3CNN。

 

2.2神经网络训练

在多尺度CNN特征的基础上,我们训练具有一个输出层和两个全连接隐藏层的神经网络。该网络起到回归量的作用,该回归量从为图像区域提取的多尺度CNN特征推断出每个图像区域的显著性得分。众所周知,可以训练具有全连接隐藏层的神经网络以达到非常高水平的回归精度。

连接的多尺度CNN特征被馈送到该网络中,该网络使用具有按像素二元显著性分数的训练图像及其标记的显著图的集合来训练。在训练之前,每个训练图像首先被分解为一组区域。使用像素显著标签进一步估计每个图像区域的显著性标签。在训练阶段期间,仅选择具有70%或更多具有相同显著性标签的像素的区域作为训练样本,并且将它们的显著性标签分别设置为1或0。在训练期间,输出层和全连接隐藏层一起最小化从所有训练图像在所有区域上累积的最小二乘法预测误差。

请注意,我们神经网络的倒数第二层的输出确实是用于显著性检测的精细调整的特征向量。可以在该特征向量上进一步训练传统回归技术,例如支持向量回归和随机森林,以为每个图像区域生成显著性得分。在我们的实验中,我们发现这个特征向量是非常有辨别力的,并且嵌入在我们的体系结构的最终层中的简单逻辑回归足够强大,可以在所有视觉显著性数据集上生成最先进的性能。

 

3.完整算法

3.1多级区域分解

可以应用各种方法将图像分解成非重叠区域。示例包括网格,区域增长和像素聚类。分层图像分割可以在多个尺度上生成区域以支持直觉,即较粗尺度的语义对象可以由较细的尺度的多个部分组成。为了与先前关于显著性估计的工作进行公平比较,我们遵循[22]中的多级区域分解管道。具体而言,对于图像I,M级图像分割是从嵌套到最粗糙的比例构建的。任何级别的区域形成非重叠分解。[3]中的分层区域合并算法用于构建图像的分割树。初始区域集称为超像素。它们是使用[13]中基于图的分割算法生成的。区域合并由两个相邻区域共享的边界像素处的边缘强度区分优先级。它们之间具有较低边缘强度的区域较早合并。像素处的边缘强度由实值超参数等值线图(UCM)确定。在我们的实验中,我们将UCM的值标准化为,并生成具有不同边缘强度阈值的15个级别的分段。调整级别i的边缘强度阈值,使得区域的数量达到预定目标。最好和最粗糙的目标区域数分别设置为300和20,中间级别的区域数量遵循几何级数。

 

3.2 空间连续性


给定图像的区域分解,我们可以使用上一节中介绍的神经网络模型生成初始显著性图。然而,由于图像分割不完美并且我们的模型将显著性分数分配给各个区域,因此在所得到的显著性图中不可避免地出现噪声分数。为了增强空间连续性,使用基于超像素的显著性改进方法。超像素的显著性得分被设置为超像素中的所有像素的平均显著性得分。通过最小化以下代价函数来获得精细的显著性映射图,其可以减少到求解线性系统。

其中是超像素i的初始显著性得分为αiIαiR是同一超像素的重新显著性得分。(1)中的第一项鼓励改进的显著性图与初始显著性图之间的相似性,而第二项是全对空间连续性项,如果不存在强边缘将它们分隔开,则在不同的超像素之间有利于一致的显著性得分。wij是任意一对超像素Pi与Pj之间的空间连续性权值。


为了定义成对权重,我们在超像素集上构造了一个无向加权图。在任何一对相邻的超像素之间的图中有一条边,它们之间的距离定义如下,

Visual Saliency Based on Multiscale Deep Features_第2张图片


其中ES(p)是像素p处的边缘强度,ΩP表示超像素P的外边界上的像素集。我们再次利用[3]中提出的UCM来定义边缘强度。任何一对非相邻超像素之间的距离被定义为图中的最短路径距离。因此空间连续新权重wij被定义为

其中σ被设置为我们实验中成对距离的标准偏差。当两个超像素位于相同的均匀区域时该权重较大,而当它们被强边缘分开时较小。

 

3.3显著图融合

我们将神经网络模型和空间相干性改进应用于M级分割中的每一级。因此,我们获得了M个精确显著图,,以各种粒度解释输入图像的显著部分。我们的目标是进一步将它们融合在一起,以获得最终的聚合显著图。为此,我们采用一种简单的方法,假设最终显著性图是各个分割级别的地图的线性组合,并通过在验证数据集上运行最小二乘估计来学习线性组合中的权重,使用索引。因此,我们的汇总显著图A的表述如下,

Visual Saliency Based on Multiscale Deep Features_第3张图片

请注意,显著融合有很多选项。例如,在[27]中采用了条件随机场(CRF)框架来聚合来自不同方法的多个显著性图。然而,我们发现,在我们的背景下,所有显著图的线性组合已经可以很好地服务于我们的目的,并且能够产生具有与从更复杂的技术获得的质量相当的质量的融合映射。

 

4.新数据集

目前,MSRA-B数据集[26]的像素点地面实况标注[22]是唯一适合训练深度神经网络的大型数据集。然而,由于数据集中的大多数图像仅包含一个连接的显著区域,并且边界区域中98%的像素属于背景,因此一旦中心先验和先前的边界[22,40]被施加,该基准变得不那么具有挑战性[ 22。

我们构建了一个更具挑战性的数据集,以促进视觉显著性模型的研究和评估。为了构建数据集,我们最初收集了7320个图像。通过遵循以下标准中的至少一个来选择这些图像:

1.有多个断开的显著对象;

2.至少一个显著物体接触图像边界;

3.颜色对比度(任何显著物体及其周围区域的颜色直方图之间的最小卡方距离)小于0.7。

为了减少标签的不一致性,我们要求三个人使用自定义设计的交互式分割工具分别对所有7320个图像中的显著对象进行注释。平均而言,每个人需要1-2分钟来注释一个图像。注释阶段持续三个月。

我们的新显著性数据集称为HKU-IS,包含4447个具有高质量像素注释的图像。HKU-IS中的所有图像满足上述三个标准中的至少一个,而MSRA数据集中的2888个(5000个中)图像不满足任何这些标准。总之,HKU-IS中50.34%的图像具有多个断开的显著对象,而MSRA数据集的这个数字仅为6.24%; HKU-IS中21%的图像具有触及图像边界的显著对象,而MSRA数据集的这个数字为13%; HKU-IS的平均颜色对比度为0.69,而MSRA数据集的平均颜色对比度为0.78。

 

5.实验结果

5.1数据集

我们已经在几个公共视觉显著性基准以及我们自己的数据集上评估了我们的方法的性能。

MSRA-B[26]。该数据集具有5000个图像,并且广泛用于视觉显著性估计。大多数图像只包含一个显著对象。像素级标签由[22]提供。

SED[2]。它包含两个子集:SED1和SED2。SED1有100个图像,每个图像只包含一个显著对象,而SED2有100个图像,每个图像包含两个显著对象。

SOD[28]。该数据集有300个图像,最初设计用于图像分割。[22]生成了该数据集中显著对象的像素注释。该数据集非常具有挑战性,因为许多图像包含多个具有低对比度或与图像边界重叠的显著对象。

iCoSeg [5]。该数据集是为共同分割而设计的。它包含643个带像素注释的图像。每个图像可以包含一个或多个显著对象。

HKU-IS。我们的新数据集包含4447个带有显著对象的逐像素注释的图像。

为了便于与其他方法进行公平比较,我们将MSRA数据集分为三个部分,如[22],2500个用于训练,500个用于验证,剩余的2000个图像用于测试。由于其他现有数据集太小而无法训练可靠模型,我们直接应用训练模型来生成其显著性图,如[22]所示。我们还将HKU-IS分为三部分,2500个用于训练的图像,500个用于验证的图像以及剩余的1447个用于测试的图像。从整个数据集中随机选择用于训练和验证的图像。

虽然使用MSRA数据集训练我们的基于深度神经网络的预测模型需要大约20个小时来处理15个图像分割级别,但在具有NVIDIA GTX Titan Black的PC上检测400x300像素的测试图像中的显著对象仅需要8秒GPU和3.4GHz Intel处理器使用我们的MATLAB代码。

 

5.2评估标准

在[1,8]之后,我们首先使用标准的精确回忆曲线来评估我们方法的性能。可以使用阈值将连续显著图转换为二元掩模,从而在将二元掩模与标签进行比较时产生一对精度和召回值。然后通过将阈值从0变化到1来获得PR曲线。该曲线在每个数据集上去平均值。


其次,由于高精度和高召回率在许多应用中都是需要的,我们计算了F-Measure[1]:


其中β2设置为0.3,以便按照[1]中的建议调整精度。我们使用[1]提出的图像相关阈值对每个显著图进行二值化时的性能进行报告。该自适应阈值被确定为图像平均显著性的两倍:

Visual Saliency Based on Multiscale Deep Features_第4张图片

其中W和H是显著图S的宽度和高度,S(x,y)是(x,y)中像素的显著值。我们报告每个数据集的平均精度,召回率和F-测量。


虽然常用,但精度回忆曲线有有限的价值,因为他们没有考虑真正的负面像素。为了更平衡的比较,我们采用平均绝对误差(MAE)作为另一个评价标准。定义为标签G与显著性图S[29]的平均像素绝对差,

Visual Saliency Based on Multiscale Deep Features_第5张图片

MAE测量标签与估计显著性图之间的数值距离,并且在评估显著性模型在诸如对象分割之类的任务中的适用性时更有意义。

 

5.3与现有技术的比较

让我们将我们的显著性模型(MDF)与一些现有的最先进方法进行比较,包括判别区域特征整合(DRFI)[22],优化加权对比(wCtr *)[40],流形排序(MR) )[38],区域对比(RC)[8],层次显著性(HS)[37],测地显著性(GS)[35],显著性过滤器(SF)[29],频率调整显著性(FT)[ 1]和谱残差法(SR)[18]。对于RC,FT和SR,我们使用[8]提供的实现;对于其他方法,我们使用带有推荐参数设置的原始代码。

在图2中给出了视觉比较。可以看出,我们的方法在各种具有挑战性的情况下表现良好,例如,多个断开的显著对象(前两行),触摸图像边界的对象(第二行),杂乱的背景(第三和第四行),以及对象和背景之间的低对比度(最后两行)。

作为定量评估的一部分,我们首先使用精确回忆曲线评估我们的方法。如图3的第一行所示,我们的方法在所有数据集的几乎整个召回范围内实现了最高精度。使用上述自适应阈值的精度,召回和F测量结果显示在图3的第二行中,按F测量值排序。我们的方法还可以在整体F测量中实现最佳性能,同时显著提高精度和召回率。在MSRAB数据集上,我们的方法达到86.4%的精度和87.0%的召回率,而第二好的(MR)达到84.8%的精度和76.3%的召回率。HKU-IS的表现改善更为明显。与第二好(DRFI)相比,我们的方法将F值从0.71增加到0.80,精度提高了9%,同时将召回率提高了5.7%。对其他数据集也可以得出类似的结论。请注意,某些方法(包括MR [38],DRFI [22],HS [37]和wCtr * [40])的精确度与我们的相当,而它们的召回率通常要低得多。因此,他们更有可能错过显著像素。这也反映在较低的F值和较高的MAE中。有关SED数据集的结果,请参阅补充材料。

图3的第三行表明,我们的方法在MAE测量方面也显著优于其他现有方法,这提供了对预测显著性图和标签之间的视觉距离的更好估计。我们的方法相对于MSRA-B数据集上的第二个最佳算法(wCtr *)成功地将MAE降低了5.7%。在另外两个数据集iCoSeg和SOD上,相对于第二个最佳算法,我们的方法分别将MAE降低了26.3%和17.1%。在包含更具挑战性的图像的HKU-IS上,我们的方法相对于该数据集(wCtr *)上表现第二好的MAE显著降低了MAE 35.1%。

总之,我们的方法在现有技术水平上实现的改进是实质性的。此外,数据集越具挑战性,优势越明显,因为我们的多尺度CNN特征能够表征图像的不同部分之间的对比关系。

 

5.4组件效率

S-3CNN的有效性如2.1节所述,我们的多尺度CNN特征向量S-3CNN由三个组成部分A,B和C组成。为了显示这三个部分的有效性和必要性,我们已经训练了另外五个用于比较的模型,它们分别仅考虑了特征A,仅考虑了特征B,仅考虑了特征C,连接了A和B,以及连接的A和C.这些五个模型使用与S-3CNN相同的配置在MSRA-B上训练。在MSRA-B数据集中的测试图像上获得定量结果。如图4所示,使用S-3CNN训练的模型在平均精度,召回和F测量方面始终如一地达到最佳性能。使用两个组件训练的模型比使用单个组件训练的模型表现更好。这些结果表明,我们的多尺度CNN特征向量的三个组成部分是相互补充的,我们的显著性模型的训练阶段能够发现和理解隐藏在我们的多尺度特征中的区域对比度信息。

空间连续性在3.2节中,空间连续性被纳入以重新确定基于CNN的模型的显著性得分。为了验证其有效性,我们使用MSRA-B数据集中的测试图像评估了具有和不具有空间连续性的最终显著性模型的性能。我们进一步选择了具有最高单级显著性预测性能的三个分割级别,并将其性能与打开和关闭的空间连续性进行了比较。得到的精确回忆曲线如图4所示。很明显,空间连续性明显提高了模型的准确性。

多级分解我们的方法利用来自多级图像分割的信息。如图4所示,单个分段级别的性能与融合模型的性能不可比。来自15级图像分割的聚合显著性图提高了2.15%的平均精度,同时与最佳性能单级的结果相比,提高了召回率3.47%。

你可能感兴趣的:(显著性检测)