论文地址:https://arxiv.org/abs/1704.03604
视觉显著性检测是计算机视觉领域最基础的问题之一,在许多复杂问题中都有所涉及。近年来,得益于神经网络的发展,视觉显著性检测技术有着快速发展。然而之前所有的方法都是基于像素层面进行检测,而不是在物体实例层面进行显著性检测。本篇文章提供了一种显著性实例分割的方法很好地解决了这个具有挑战性的问题,将显著性物体分割成了实例。
该方法主要包括以下三个步骤:
前两个步骤中,文章提出使多尺度显著性的优化网络MSRNet产生高质量的显著性区域掩膜。论文中给出的方法融合了MCG和基于MAP的子集最优化后,产生非常优秀的分割成果。
综上所述,此论文有着以下的巨大贡献:
以下将详细讨论论文的思想与算法。
传统的显著性检测可分为自底而上、自顶而下两类,而深度卷积神经网络又将其推动,产生了端到端的深度网络。尽管这些方法提升了准确率与效率,但是在多尺度的问题中表现得并不好。因此本文提出了一种能结合自顶而下与自下而上两方面的优化方法。
传统的两类目标检测不适合用于显著对象的定位。而近期学者的研究由于其粗糙的机制,很难匹配到真实状况中的物体。与此不同的是,本文采用了基于显著目标轮廓的目标检测。
受到了实例感知的语义分割的启发,作者使用了显著性实例分割的方法,同时结合了对显著区域中的特征物体实例的检测。
此处开始谈论论文的重要思想与方法。论文中的显著性实例分割实际上包含了四个非常重要且紧密联系的方法,即显著区域检测,显著对象边缘检测,显著实例生成、显著实例优化。作者首先使用深度MSRNet网络完成显著区域检测、边缘检测,随后在这个基础上生成固定数量的显著目标检测,最后把这些结果融合进入CRF模型,生成最终的显著性物体分割。以下将会详细探讨各个步骤。
完全卷积神经网络没有将显著区域检测和边缘检测统一在一个网络构架中,因此作者设计了MSRNet以解决这一问题。MSRNet是本文的重要成果,它由三个共享参数的优化的VGG网络和一个学习模型构成,用于融合不同尺度的结果。
传统的VGG16方法是自下而上的。该方法同时需要自顶而下和自下而上的网络,因此需要对传统的VGG进行改良,即为其增加一个自顶而下的过程,将其底层的图与高层的特征图相整合。即输入图片后自下而上地先后产生 F b u i , i = 5 , 4 , 3 , 2 , 1 F_{bu}^i, \ i=5,4,3,2,1 Fbui, i=5,4,3,2,1,随后再根据 F b u i , F t d i F_{bu}^i,\ F_{td}^i Fbui, Ftdi 生成 F t d i − 1 , i = 6 , 5 , 4 , 3 , 2 F_{td}^{i-1},\ i=6,5,4,3,2 Ftdi−1, i=6,5,4,3,2,自顶而下得到三个图像,即为三个尺度的输出。
由参考文献的知识,可以知道对于多尺度的问题共享参数效果明显更好。因此此处对三个尺度的改良的VGG网络的输出(3.1.1的输出)进行加权,权重取值可能为1,0.75,0.5。此权重被定义为关注度权重,因为它代表了模拟人类视觉的关注度。这些随空间变换的关注度权重可以被视为概率映射,可以在完全卷积网络中进行训练。最终加权求和后得到输出图像。
对于同一个MSRNet的结构,作者对了两个深度模型进行训练,分别训练显著区域检测与显著物体边缘检测。这两个子任务有着不同的训练集,他们的损失函数也有着不同的权重。MSRNet是完全卷积网络,可以输入任意大小的图像并输出它的显著性映射,因此可以通过调整训练图片的大小至320*320来节省内存并提升训练的速度。
MCG算法是一种统一的自下而上的分割方法,并可以生成候选的目标。作者选择了MCG算法来完成目标检测。给定一个输入,作者生成了四个显著性轮廓的映射,并最后生成一个分层的分割,以及一个目标识别的排行表。
为保证高召回率,作者生成了800个显著性目标,并舍弃掉显著性像素不足80%的目标。此后再应用一个基于最大后验的子集最优化方法压缩目标集。
由于显著性目标与区域是独立获得的,其输出的并集可能存在差异。为此,作者使用了完全连接的条件随机场模型来优化这一结果。
每个映射有 K K K个通道,如果某个显著性像素被显著性实例覆盖,其拥有与该显著性实例标签的概率则为1,否则有任何标签的概率都为 1 / K 1/K 1/K 。若被 k k k 个实例覆盖则其与其中一个实例标签有联系的概率为 1 / k 1/k 1/k 。由此可以推出模型中的能量函数 E ( x ) E(x) E(x) 与像素 i i i 被分配到标签 x x x 的概率 P ( x i ) P(x_i) P(xi),以及相互潜能函数 θ i , j \theta_{i,j} θi,j 。 θ i , j \theta_{i,j} θi,j 含有两个核,而参数 σ c , c ∈ { α , β , γ } \sigma_c,\ c\in\{\alpha,\beta,\gamma\} σc, c∈{α,β,γ} 则为高斯核的参数。作者选择了使得能量函数最小的合适参数。
由于显著性实例分割是一个全新的问题,现有的数据集都不适合进行分析,因此作者建立了一个新的数据集以供分析。该数据集中的大多数图片选自已有的数据集,其中约三分之二的图片含有多个显著性目标,其余三分之一由没有显著区域的图像、单个显著实例或没有遮挡的多个显著实例组成。数据集中含有1000张图片,其中500张用于训练,200张用于验证,其余300张用于测试。
该部分详细介绍了实验的环境、训练内容、训练时间,以及对图片进行显著性检测、边缘检测、MCG与目标检测花费的时间。训练时间约为50小时,而完成一个 400 × 300 400\times300 400×300像素的图片的检测仅需话费40秒。
该部分中,作者用论文中提供的MSRNet方法与以往方法所得结果进行比较。一是根据PR、F-方法、MAE等方法来评定图像处理的优劣,其中MAE方法是最有参考价值的。在表中可以明显看到,无论是MAE还是max-F,在所有数据集中MSRNet的表现都是最优秀的。其次,将结果图与实际Ground Truth图进行对比,在各种方法中MSRNet所得图像都是轮廓最清晰、范围最准确,与GT图像最相近的。PR曲线中,MSRNet的方法也是全局最高的,效果明显优于其它方法。
此外,此部分中作者还对比了MSRNet模型的效率,即使用了控制变量的方法, 分别检测VGG16网络、单尺度的优化网络、多尺度未优化的VGG网络的效果并与MSRNet所得结果进行比较,在各个指标上MSRNet都远远优于其它网络。且另外两种方法都比单独的VGG网络更优。说明VGG的优化与多尺度化不仅让MSRNet网络拥有更高的显著性检测精度,也使其得以进行多尺度检测。
本篇论文实现了实例层面上的显著性识别分割,提供了一种检测物体实例的显著性区域检测方法,填补了现有模型的不足。最重要的是,作者构建了用于解决此问题的MSRNet网络,该网络可以生成非常高质量的显著性区域掩膜与物体轮廓。作者通过构建一个新的数据集来进行研究,且包含此数据集在内的各个测试集的实验结果都表明此显著性实例分割的方法在各方面优于现有其它方法。
论文核心思想是构建一个MSRNet网络以完成显著区域检测与显著目标边缘检测,其中MSRNet网络由三个改进的VGG网络和一个学习模型构成,三个尺度加权融合得到输出。随后根据MCG算法、MAP完成压缩,最后基于条件随机场进行优化,得到显著性目标分割。这四个步骤紧密联系,优化并融合了许多前沿方法,在训练后有着非常优秀的表现。