提出问题:
提出方法:提出了一种基于边界感知的突出目标检测网络,该网络不需要任何代价高昂的后处理。首先,我们在编码器网络的顶部实现了一个全局感知模块(GPM)来生成一个低分辨率的显著性图来粗略地捕获显著性目标。在此基础上,我们引入了关注反馈模块(AFMs),该模块通过采用每个编码器块和相应的解码器块来细化粗阶预测。AFMs有助于捕获目标的整体形状。此外,边界增强损失(BEL)——用来产生精致的边界——被用来帮助学习对物体轮廓的显著性预测。该模型具有学习生成精确、结构完整的突出目标检测结果的能力,同时不需要后处理就可以清晰地分割出目标的轮廓。
显著目标检测:目标是识别图像中视觉上有区别的区域或对象,然后对目标进行分割。
图像语义分割(semantic segmentation),从字面意思上理解就是让计算机根据图像的语义来进行分割,例如让计算机在输入下面左图的情况下,能够输出右图。分割的意思是从像素的角度分割出图片中的不同对象,对原图中的每个像素都进行标注,比如右图中粉红色代表人,绿色代表自行车:
全卷积神经网络:关于全卷积神经网络的知识,可以在以下链接了解:
链接: link.
交叉熵损失:
模型概述:以VGG-16作为骨干网络,是一种编码器-解码器风格,分别用E(l)和D(l)表示lth尺度的编码器和解码器块。首先将输入图像传递给E(1)-E(5),以提取多尺度卷积特征。然后,在的E(5)基础上建立全局感知模块(GPM),给出全局显著性预测SG。解码器网络采用SG和多尺度卷积特性作为输入,以生成更精确的S(1)~S(5)尺度的显著性预测。通过关注反馈模块(AFMs,右图)控制E(l)和D(l)之间的信息传递,其中内置的三元注意映射T(l)指导边界感知的学习进展。使用多重分辨率生成地面真值,并使用交叉熵损失作为监督。此外,为了产生精致的边界,在最后两个afm中应用了额外的边界增强损失(BEL)。
编码器网络:将VGG16网络修改为一个全卷积网络,去掉最后两个全连接层和最后一个池化层。另一方面,我们跳过最后一个卷积块E(5)之前的降阶操作,使用扩展卷积[4],E(5)的速率为2,以保持滤波器的原始接受域。这样的操作是为了避免失去过多的空间细节。
译码器网络:译码器网络由五个卷积块组成。在解码器块之间应用2×上采样层,以确保与相应的编码器块具有相同的比例。每个D(l)有3×3个卷积层,输出数分别为32、32和1。在标度匹配对中,通过内嵌三元注意图T(l)的注意反馈模块(AFMs)来传递学习到的多层次信息。
Global Perception Module:设大小为N×N×C的X为E(5)的特征图(通过一次1×1的卷积将通道数缩减为C = 16)。我们首先将X分成n×n个细胞{x1,…,xn×n},然后对X上的核大小Kg×Kg进行全卷积,得到全局特征F(n)∈RN×n×C。图3给出了n = 2和Kg = 6时的情况。可以看出,在我们的全局卷积运算中,某个细胞中的每个元素(红色的那个)都与Kg×Kg−1的“邻居”相连,即每个细胞中的其他蓝色元素。它类似于在膨胀的卷积中引入空穴。不同的是,我们也考虑到当地的"邻居"。这样可以同时保证局部模式和全局图。全局显著性映射SG由F(n)生成,然后与E(1)∼E(5)中的多尺度卷积特性一起交付到解码器网络进行细化。首先,拆分单元格{x1,…将xn×n}沿通道串联存储,得到一个改型版本XR (n),然后对XR (n)进行kg×kg卷积,生成全局卷积特征F(n),并将结果还原为大小n×n×C。GPM的最后一步是利用3×3卷积来生成全局显著性预测SG。
Attentive Feedback Module :通过关注反馈模块控制每层匹配编码器和解码器块之间的消息传递。AFM以两步重复的风格工作。为了更清楚地解释它是如何工作的,我们分别使用实线和虚线来说明在两个时间步内传递流的消息。我们将E(l)的特征表示为fE(l,t),输入I(l,t), D(l)的特征表示为f D(l,t),输出谓词表示为S(l,t),其中t表示时间步长。 裤
当t = 1时,译码器块D(l)取第l个编码器块的fE(l,1)作为输入,同时取来自D(l+1)的S(l+1,2)和fD(l+1,2) 作为输入。对fE(l,1)进行一个1×1的卷积,将其信道减少到32个,以节省内存。D(l+1)的输出以因子2上采样来匹配fE(l,1) 。然后,我们将所有的输入元素连接起来,通过上一个尺度的粗略预测,形成一个关注特征I(l,1)。通过批处理归一化和ReLU,可以很容易地通过三个卷积层生成第一个时间步的精细预测S(l,1)。然而,在第一次时间步细化之后,我们不能保证结果的质量,因为前一个块的指导涉及到一个放大操作,它引入了许多不准确的值,特别是对象边界。除此之外,假设前面的块未能分割出整个目标,后续的块将永远不会有机会执行结构上完整的检测。
在第二步中,AFM提供了使用三元注意图进行错误修正的机会。介绍了提供可信的前景和背景模板供参考。对于我们的端到端训练策略,一个合适的方法是利用第一个时间步的精细预测S(l,1)作为参考。回顾形态扩张和侵蚀,前者可以增加重量,后者是一个双重操作,使厚的图形变得瘦。在此基础上,我们可以通过侵蚀来减少突出区域,从而减轻对边界的负面影响。另一方面,我们可以通过扩展操作来扩大突出区域,以吸引更多的像素周围。因此,当t = 2时,S(l,1)上的操作扩张和侵蚀生成了表示置信背景、置信前景和不确定区域的三元注意图。我们利用最大池操作P M(l)max(·)实现形态扩张D(l)(·)和侵蚀E(l)(·),即:
我们将最后一个解码器块的输出S(1,2)作为最终的显著性映射;
随着空间分辨率的提高,物体的整体结构在AFMs的帮助下逐渐显现出来。尽管如此,卷积网络仍然存在一个共同的问题,即通常会产生模糊的边界,难以区分两个前景区域之间狭窄的背景边距(例如两条腿之间的空间)。我们应用边界增强损失和交叉熵损失来进行显著性检测来克服这一问题。预测中使用kernel size进行P A(l)ave (·)的平均池操作以提取平滑边界。我们避免直接预测边界,因为这是一个非常困难的任务,而且物体轮廓图必须与其显著掩模一致。我们使用B(l)(X)表示给定显著掩模X生成物体轮廓图的操作,如下:
对于与l=1,2时的损失函数可以写为:
在实现过程中设置仿真模型中的λ1 : λ2 = 1:10来加强对物体轮廓线的学习。对于l = 3,4,5,损失函数只包含第一项,即显著性检测的交叉熵损失。通过从显著性预测本身提取边界,边界增强损失增强了模型在边界上的努力。
Precision-Recall curves:它是评价卓越绩效的标准度量。应该使用从0到255的阈值将显著映射进行二进制化,然后将二进制图与真值进行比较;
F-measure:β2=0.3
此外还引入了平均绝对误差和S-measure;
Parameter Settings:表1给出了在AFM和BEL中实现的池化层的内核大小,所有的步长都固定为1,并设置填充宽度以保持空间分辨率。对于低分辨率的预测,在排除目标对象的情况下,三元注意图应该包含足够的区域。因此,内核大小相对于空间大小应该比较大。随着空间分辨率的提高,可以减小核的大小,这样就可以识别出目标的整体形状;2)侵蚀Me(l) 的核尺寸应该小于膨胀Md(l) 的核尺寸,因为我们需要尽可能多地感知边界区域周围的细节。Md(l) , Me(l)和A(l)是根据上述观察结果进行实验设置的。
GPM:在全卷积中,卷积核的大小为Kg = n *kg,将GPM的局部卷积卷积核设置为kg=3;使用多尺度策略,通过结合3个不同设置的GPMs来形成全局预测模块。每个GPM接收来自E(5)的特征作为输入,将其输出特征串联起来,通过一个3×3的卷积产生SG。
表2给出了五个数据集上的最大F-measure, S-measure和MAE。我们的AFNet排名可以与PiCANet媲美,甚至更好,但速度更快。
3.
在图5中说明了与其他方法的可视化比较。在前四行,突起的细条纹,如触角和角,在我们的方法中是突出的,但在所有其他方法中没有。另外,与PGRL和C2SNet使用额外的参数或边缘数据来细化边界相比,AFNet可以生成刀尖形状的边界,更接近地面真值情况。对于最后两排的两个手臂伸展的女孩,几乎所有其他方法对手臂的反应都是模糊的,而我们的方法给出了清晰的结果;
The effectiveness of GPM:
图6(左列)的视觉效果也说明了GPM可以更好地捕捉整体形状和局部图案。
表4显示了AFM和BEL的附加效果。在本部分还实现了G-FRNet[11]用于演示,并且在相同的环境下对DUTS-train数据集进行了G-FRNet训练。为了详细比较,计算了8个评估—F的精确值、F的精确值和召回率、表2中使用的3个评分、Fmax的联合值的交集(IOU)和平均IOU。表4中’ AFNet '的第一行排除了使用trimap的反馈路径(虚线,t = 2),第二行是在没有BEL帮助下训练的AFNet,最后一行是实现的完整版本。AFM和BEL均单独贡献,且性能优于GFRNet。从图6的可视化(右列)中我们可以看到AFM有助于识别目标的结构,而BEL负责捕获边界细节。
在本文中,作者引入了一个尺度上的解决边界感知显著性检测。采用一种新型的轻量级全局感知模块进行全局显著性预测,然后通过关注反馈模块通信编码器和解码器网络,对粗预测进行细化,并预测最终的显著性映射。整个网络可以学习捕捉物体的整体形状,实验结果表明,该架构在五种公共显著性基准测试中取得了最先进的性能。作者的AFNet不需要任何后处理和运行在实时速度26帧每秒。