DeepSaliency论文翻译学习-Visual Saliency Based on MuItiscale Deep Features

论文项目地址

摘要

视觉显着性是包括计算机视觉在内的认知科学和计算科学中的一个基本问题。本文发现,利用深度卷积神经网络(CNN)提取的多尺度特征可以获得高质量的视觉显着性模型,并在视觉识别方面取得了很大的成功。为了学习这类显着性模型,我们引入了一种神经网络体系结构,它在CNN上有完全连接的层,负责三个不同尺度的特征提取。然后,我们提出了一种改进方法,以提高我们的显着性结果的空间一致性。最后,为不同层次的图像分割而计算的多个显着性映射的聚合可以进一步提高图像分割的性能,从而产生比单一分割生成的显着性映射更好的显着性映射。为了促进视觉显着性模型的进一步研究和评价,我们还构建了一个新的大型数据库,包含4447幅具有挑战性的图像及其像素级显着性注释。实验结果表明,该方法能够在所有公共基准上达到最先进的性能,在MSRA-B数据集和新的数据集(HKV-IS)上分别提高了5.0%和13.2%的F-测度,平均绝对误差分别降低了5.7%和35%。在这两个数据集上分别为1%。

1. 介绍

视觉显着性试图确定人类视觉和认知系统对图像中不同区域的注意量[6]。因此,它是心理学、神经科学和计算机视觉领域的一个基本问题。计算机视觉研究人员致力于开发用于模拟人类视觉注意过程或预测视觉显着性结果的计算模型。视觉显着性已被纳入各种计算机视觉和图像处理任务,以提高它们的性能。这些任务包括图像分割[31]、重定向[4]和摘要[34]。近年来,视觉显着性也越来越多地被用于视觉识别任务[32],如图像分类[36]和人的再识别[39]。

参与视觉注意过程的人类视觉和认知系统由多层相互关联的神经元组成。例如,人类视觉系统有多层简单而复杂的细胞,其激活程度取决于输入信号的大小。由于深度人工神经网络最初是受生物神经网络的启发,因此利用深度人工神经网络建立视觉显着性计算模型是一种自然的选择。具体来说,最近流行的卷积神经网络(Cnn)特别适合这项任务,因为cnn中的卷积层类似于人类视觉系统中简单而复杂的细胞[14],而cnn中的完全连接层类似于人类认知系统中的更高层次的推理和决策。

本文利用卷积神经网络计算的多尺度深度特征,建立了一种新的视觉显着性计算模型。深神经网络,如CNNs,最近在视觉识别任务[24,2,5,7]方面取得了许多成功。这种深层次网络能够自动从原始像素中提取特征层次结构。此外,使用这种网络提取的特征具有很高的通用性,而且往往比传统手工制作的特征更有效。受此启发,我们使用最初在ImageNet数据集[10]上训练的CNN来执行特征提取。由于ImageNet包含大量对象类别的图像,我们的特性包含丰富的语义信息,这对于视觉显着性非常有用,因为人们对来自不同语义类别的对象有不同程度的关注。例如,观看一幅图像的人可能会更多地关注像汽车这样的物体,而不是天空或草地。

根据定义,显着性是由视觉对比产生的,因为它直观地表征了图像的某些部分,这些部分相对于它们的相邻区域或图像的其余部分显得格外突出。因此,为了计算图像区域的显着性,我们的模型应该能够评估所考虑区域与其周围区域以及图像其余部分之间的对比度。因此,我们从三个嵌套和越来越大的矩形窗口中提取每个图像区域的多尺度CNN特征,这些窗口分别包含考虑的区域、其邻近区域和整个图像。

在多尺度CNN特性的基础上,我们的方法进一步训练了完全连通的神经网络层。级联的多尺度CNN特征被输入到这些层中,使用一组标记的显着性地图进行训练。因此,这些完全连接的层扮演了一个回归者的角色,它能够从图像区域周围的嵌套窗口中提取的多尺度CNN特征推断出每个图像区域的显着性分数。众所周知,具有至少一个完全连接层的深层神经网络可以被训练以达到很高的回归精度。

我们已经对现有数据集的基于cnn的视觉显着性模型进行了广泛的评估,同时注意到缺乏用于训练和测试显着性模型的大型且具有挑战性的数据集。目前,唯一可用于训练基于深度神经网络模型的大型数据集来自于MSRA-B数据集[26]。多年来,这个数据集变得不那么具有挑战性了,因为那里的图像通常包括一个位于图像边界之外的突出对象。为了便于对高级显着性模型的研究和评估,我们创建了一个大型数据集,其中图像可能包含多个突出对象,这些对象在图像中具有更广泛的空间分布。我们提出的显着性模型已经在这个新的数据集以及所有现有的数据集上显着地超过了所有现有的显着性模型。

本文完成了以下任务:

  • 提出了一种新的视觉显着性模型,将嵌套窗口中提取的多尺度CNN特征与具有多个完全连通层的深度神经网络相结合。利用一组标记显着性图中的区域训练出用于显着性估计的深层神经网络。
  • 通过进一步将基于CNN的显着性模型与空间一致性模型和多层图像分割相结合,建立了一个完整的显着性框架。
  • 创建了一个新的具有挑战性的数据集HKU-IS,用于显着性模型的研究和评估。此数据集可公开使用。我们提出的显着性模型已经在这个新的数据集以及所有现有数据集上得到了成功的验证。

1.1 相关工作

自下而上的模型主要是基于中心环绕方案,通过颜色、强度、纹理和方向[19,18,1,8,26]等低级视觉属性的线性或非线性组合来计算主显着性地图。自顶向下的方法通常要求在计算过程[20,7,16,33,25]中纳入高级知识,如目标性和人脸检测器。

最近,人们做出了大量的努力来设计区分特征和突出的前项。大多数方法基本上遵循区域对比框架,目的是设计能够更好地描述图像区域相对于其周围区域的显着性的特征。在[26]中,三个新的特征与一个条件随机场相结合。在文[33]中提出了一种基于低秩矩阵恢复的模型,用于将低级视觉特征与高阶先验信息结合起来。

突出先验,如中心先验[26,35,23]和边界先验[22,40],被广泛地用于启发式地结合低级线索和改进显着性估计。这些显着性先验或者直接与其他显着性线索作为权重[8,9,20]结合,或者在基于学习的算法[22,23,25]中用作特征。虽然这些经验先验可以改善许多图像的显着性结果,但当突出物体偏离中心或与图像边界明显重叠时,它们可能会失败。注意,在我们的框架中,目标定位线索和基于边界的背景建模没有被忽略,而是通过多尺度cnn特征提取和神经网络训练隐式地结合到我们的模型中。

卷积神经网络最近在视觉识别任务方面取得了许多成功,包括图像分类[24]、目标检测[15]和场景分析[12]。Donahue等人[LL]指出,从Krizhevsky的CNN中提取的关于ImageNet数据集[10]的特征可以被重新定位为一般任务。Razavianet A1.[30]扩展了他们的结果,并得出结论:使用CNNs进行深度学习可以成为任何视觉识别任务的有力候选。然而,CNN的特征还没有在视觉显着性研究中被探索,主要是因为突出性不能用[1,30]中所考虑的相同的框架来解决。应该学习的是与周围区域的对比,而不是图像区域内的内容,以便进行显着性预测。本文提出了一种简单而有效的神经网络结构,使深度CNN特征适用于显着性建模和显着性目标检测。

2. 具有深层特征的显着性推理

如图1所示,基于深度特征的视觉显着性模型的体系结构由三个深卷积神经网络上的一个输出层和两个完全连接的隐层组成。我们的显着性模型要求将输入图像分解成一组不重叠的平区,每个区域内部的显着性值几乎是一致的。这三个深层神经网络负责多尺度特征提取。对于每个图像区域,它们分别从三个嵌套和越来越大的矩形窗口中进行自动特征提取,这些窗口分别是所考虑区域的边界框、其相邻区域的边界框和整个图像。从三个CNN中提取的特征被输入两个完全连接的层,每个层有300个神经元。第二完全连接层的输出被馈送到输出层,输出层执行双向Softmax,该输出层在二进制显着性标签上产生分布。在为输入图像生成显着性映射时,我们在图像的每个区域反复运行我们训练的显着性模型,为该区域生成一个单一的显着性评分。此显着性分数将进一步转移到该区域内的所有像素。
DeepSaliency论文翻译学习-Visual Saliency Based on MuItiscale Deep Features_第1张图片

2.1.多尺度特征提取

我们使用Caffe [21] (一种开放源码的CNN训练和测试框架)对图像数据集ImageNet[10]上的深层卷积神经网络提取每个图像区域的多尺度特征。CNN的体系结构有八个层次,包括五个卷积层和三个全连接层。从最后一个全连接层的输出中提取特征,该层有4096个神经元。虽然CNN最初是在一个用于视觉识别的数据集上进行训练的,但是自动提取的CNN特征具有很高的通用性,在其他视觉计算任务中可以比传统手工制作的特征更有效。

由于图像区域可能形状不规则,而CNN特征必须从矩形区域中提取,因此CNN特征仅与区域内的像素相关,如[15]中所示,我们将CNN特征提取的矩形区域定义为图像区域的边界框,并将区域外的像素填充到其边界框中,并在所有ImageNet训练图像中以相同位置的平均像素值填充像素。这些像素值在平均减去后变为零,对后续结果没有任何影响。我们将边框中的区域扭曲为一个带有227x227像素的正方形,以使其与为ImageNet训练的深度CNN兼容。然后将扭曲的RGB图像区域送入深度cnn,通过在所有卷积层和全连通层中前向传播一个平均减去的输入图像区域,得到一个4096维的特征向量。我们把这个矢量特征命名为A。

特征A本身不包括围绕所考虑的图像区域的任何信息,因此无法判断该区域相对于其邻域以及图像的其余部分是否显着。为了包含被考虑区域周围区域的特征,以了解其邻域的对比度大小,我们从矩形邻域中提取第二个特征向量,即所考虑区域及其邻近区域的边界框。这个边界框中的所有像素值都保持不变。再一次,这个长方形的区域在被扭曲后,会被送进深深的CNN。我们将CNN特征B的结果向量称为B。

众所周知,显着性计算中一个非常重要的线索是区域相对于图像其余部分的(颜色和内容)唯一性的程度。图像区域在整个图像中的位置是另一个关键线索。为了满足这些要求,我们使用深度CNN从整个矩形图像中提取特征C,其中所考虑的区域用平均像素值来表示区域的位置。这三个在不同尺度上得到的特征向量共同定义了我们在显着性模型训练和测试中所采用的特征。由于我们最后的特征向量是三个CNN特征向量的级联,所以我们称之为S-3CNN。

2.2. 神经网络的训练

在多尺度CNN特性的基础上,我们训练了一个输出层和两个完全连通的隐层的神经网络。该网络扮演一个回归者的角色,它从为图像区域提取的多尺度CNN特征中推断出每个图像区域的显着性评分。众所周知,具有完全连通隐层的神经网络可以训练,以达到很高的回归精度。

级联的多尺度CNN特征被输入到这个网络中,该网络使用一组训练图像及其标记的显着性地图进行训练,这些图像具有像素级的二进制显着性分数。在训练前,每个训练图像首先被分解成一组区域。使用像素显着性标签进一步估计每个图像区域的显着性标签。在训练阶段,只选取70%或以上像素具有相同显着性标签的区域作为训练样本,其显着性标签分别设置为1或0。在训练过程中,输出层和完全连接的隐层一起最小化所有训练图像在所有区域累积的最小二乘预测误差。

注意,我们的神经网络倒数第二层的输出确实是一个用于显着性检测的精细调整的特征向量。传统的回归技术,如支持向量回归和随机森林,可以对该特征向量进行进一步的训练,以生成每个图像区域的显着性评分。在我们的实验中,我们发现该特征向量具有很强的鉴别性,并且嵌入在我们架构的最后一层的简单逻辑回归足够强大,足以在所有视觉显着性数据集上产生最先进的性能。

3. 完整的算法

3.1. 多级区域分解

可以应用多种方法将图像分解为不重叠的区域。示例包括网格、区域增长和像素聚类。分层图像分割可以在多尺度上生成区域,以支持语义对象在较粗尺度上可能由多个较细尺度上的部分组成的直觉。为了与以往的显着性估计方法进行比较,我们采用了文献[22]中的多层区域分解方法。特别的对于一个图像 I I I来说,将其分割为M层, S = { S 1 , S 2 , . . . S M } ( ∣ S i ∣ = N i ) S = \left \{S_{1},S_{2},...S_{M} \right \}(|S_{i}|=N_{i}) S={S1,S2,...SM}(Si=Ni),是从最细到最粗分布的。所有层次上的区域形成不重叠的分解。将文[3]中的分层区域合并算法应用于图像分割树的建立。初始区域集称为超像素。它们是使用[13]中基于图的分割算法生成的。区域合并由两个相邻区域共享的边界像素处的边缘强度来确定优先级。边缘强度较低的区域较早地被合并。像素处的边缘强度由(UCM)确定.在我们的实验中,我们将UCM的值归一化为[0,1],并生成具有不同边缘强度阈值的15层分割。调整一级的边缘强度阈值,使区域数达到预定目标。在最好的和最粗的水平上的目标区域数分别设置为300和20个,中间层的区域数遵循一个几何级数。

3.2.空间相干性

给出一幅图像的区域分解,利用上一节提出的神经网络模型生成初始显着性映射。然而,由于图像分割的不完善性,以及我们的模型将显着性分数分配给各个区域,噪声的分数不可避免地出现在所得到的显着性图中。为了增强空间相干性,采用了一种基于超像素的显着性细化方法。超像素的显着性分数被设置为超像素中所有像素的平均显着性分数。通过最小化以下代价函数,得到了精确的显着性映射,并将其简化为求解线性系统。
DeepSaliency论文翻译学习-Visual Saliency Based on MuItiscale Deep Features_第2张图片
这里 E S ( p ) ES(p) ES(p)是像素点 P P P处的边缘强度, Ω P \Omega _{P} ΩP表示超像素P外部边界上的像素集。我们再次利用[3]中提出的UCM来定义边缘强度。图中任意一对非相邻超像素之间的距离定义为最短路径距离。因此,空间一致性权重 w i j w_{ij} wij被定义为

w i j = e x p ( − d 2 ( P i , P j ) 2 σ 2 ) w_{ij}=exp\left ( -\frac{d^{2}\left ( P_{i},P_{j} \right )}{2\sigma ^{2}} \right ) wij=exp(2σ2d2(Pi,Pj))

在我们的实验中, σ \sigma σ被设置为对应距离的标准差。当两个超像素位于同一均匀区域时,这个权重很大;当两个超像素被强边缘分开时,这个权重很小。

3.3. 显著性图融合

我们将我们的神经网络模型和空间一致性细化应用于每一个M级的分割。从而,我们得到了M个精化的显着性地图, { A 1 , A 2 , . . . A M } \left \{ A^{1},A^{2},...A^{M} \right \} {A1,A2,...AM}以不同尺度解释输入图像的显著部分。我们的目标是进一步将它们融合在一起,以获得最终的综合显着性图。为此,我们采用一种简单的方法,假设最终的显着性映射是单个分割级别上的映射的线性组合,并通过在验证数据集上运行一个与 I v I_{v} Iv 索引的最小二乘估计器来学习线性组合中的权重。因此,我们的聚集显着性图A如下所示,DeepSaliency论文翻译学习-Visual Saliency Based on MuItiscale Deep Features_第3张图片

显着性融合有许多选项。例如,在[27]中采用了条件随机场(CRF)框架来聚合来自不同方法的多显着性映射。然而,我们发现,在我们的背景下,所有显着性地图的线性组合已经能够很好地服务于我们的目的,并且能够制作出与从更复杂的技术中获得的地图质量相当的综合地图。

你可能感兴趣的:(图像处理,显著性,机器学习,图像分割)