显著性检测2019(ICCV, CVPR)【part-1】

1.《A Simple Pooling-Based Design for Real-Time Salient Object Detection》

同样是bottom-up/top-down 网络结构,创新点依然在于高层语义特征与低层局部细节特征融合方式上。
作者指出,随着top-down 不断融入低层特征,高层特征会被稀释,而且CNN的感受野大小相对于其深度来说也不够合适。前面有研究通过加入注意力机制;采用Recurrent循环机制;更好联合Multi-level信息;加入额外限制比如边界损失等方法缓解上述问题。
而本文通过扩充Pooling池化的影响力,提出基于Pooling的GGMFAM两个模块来实现更好的特征融合。网络简单,效果好,速度快

(PoolNet)网络结构如下:

显著性检测2019(ICCV, CVPR)【part-1】_第1张图片
(1)GGM
GGM模块由PPM 和 一系列 GGFs 组成。在bottom-up 顶端加入PPM(Pyramid Pooling Module,该模块介绍可参考https://blog.csdn.net/wd18508423052/article/details/93882113),用于更好的提取高层语义特征。PPM有4个子分支,第一个和最后一个分别是identity mapping layer 和 a global average pooling layer,中间两个是adaptive average pooling layer 以保证输出空间尺寸分别为3×3, 5×5. GGFs用于将PPM提取的特征在top-down路径上送入各个尺度的低层特征中。
(2)FAM
在Fusion(F)模块完成特征融合后,通过FAM进一步在多尺度无缝融合特征。这样做,一来可缓解上采样的混叠效应,尤其当上采样率比较大的时候;二来,每个空间位置可以获取到不同尺度空间的局部内容,进一步扩大和提升模型整体的感知区域。
显著性检测2019(ICCV, CVPR)【part-1】_第2张图片
(3)联合Edge Detection 任务,为Salience Detection Branch 加入edge information, 提升Salience Detection效果。
使用standard binary cross entropy loss for salient object detection. 使用balanced binary cross entropy loss for edge detection.

该篇PPM, FAM模块 与 2019【part-2】第6篇文章Pyramid attention 思想类似,即Pyramid 金字塔思想,通过多个不同的尺度变换,扩大感知区域,更好的融合特征。

2.《Pyramid Feature Attention Network for Saliency detection》

网络结构图如下:

显著性检测2019(ICCV, CVPR)【part-1】_第3张图片
本质还是bottom-up/top-down结构。不同的是,top-down时对流入的高低层信息(视为2个整体)分别使用不同的注意力机制做处理
对低层信息使用spatial attention机制,不使用channel attention;
对高层信息使用CPFE(Contextaware pyramid feature extraction),燃机使用channel attention. 不使用spatial attention.
这样选择是因为高层富含语义信息,每个chanel就是一层语义,而低层无语义信息,而富含空间信息
(1)对高层特征(Conv3-3,4-3,5-3):
首先进入CPFE模块 对每个level的特征,使用3种空洞卷积和1×1卷积,获取不同感受野的特征,然后将结果concate一起。 这样每个level得到 W×H×128(32×4)维特征,最后结合上采样,将3个level特征concate一起,得到64×64×384(128×3)维特征。 该特征即为Multi-scale and Multi-receptive-field的特征信息。然后进行channel attention进一步处理特征。
显著性检测2019(ICCV, CVPR)【part-1】_第4张图片
(2)对低层特征(conv1-2,2-2):
使用spatial attention. 注意,低层特征的空间关系是由高层语义特征推导出来的
显著性检测2019(ICCV, CVPR)【part-1】_第5张图片
(3)完成上述特征处理和融合后,预测显著图。
在二值交叉熵计算显著预测图基础上额外增加针对边界的交叉熵loss.
边界的获得由Laplace Operator得到,因为Laplace使用图像梯度,所以可用卷积实现,然后施加tanh 和 abs绝对值操作归约到[0,1],得到边界信息。
在这里插入图片描述

3.《Cascaded Partial Decoder for Fast and Accurate Salient Object Detection》

创新点:抛弃最低两层的空间信息,因为这两层特征分辨率高,计算耗费时间多。而使用生成的显著图修正指引较高层(第三层)的特征关注边界等细节信息(注意力机制),进而弥补最低两层的缺失,实现速度快,效果好的预测。

网络结构图如下:

显著性检测2019(ICCV, CVPR)【part-1】_第6张图片
(1)注意力模块:HAM(Holistic Attention Module)
该模块旨在扩大初始显著预测图的面积,进而指引提升边界不准确,结果不完整等问题。
在这里插入图片描述
Convg(Si,k)代表高斯平滑显著图,fmn_max代表归约到[0,1], 和原始显著预测图取MAX操作既保留了原始显著图显著区域的值(显著区域原始图值大于平滑模糊图值),同时提升了对原始显著图的边界区域的注意,扩大了显著感知的面积(在不显著区域,平滑后的模糊图值大于原始显著图值)
将attention map Sh与第三层卷积特征作element-wise multiplying,得到注意力后的修正的特征。和第四层,第五层特征一起送入解码器部分产生新的显著预测图。
注意:为了降低不同层特征间差距,通过element_wise multiplying 它自身和所有比它高层的特征来更新相对低层的特征。
在这里插入图片描述
最后通过upsampling-concatenating 策略融合更新后的多尺度特征。

(2)解码器部分基于Receptive field block(RFB)并进行一定改进。
(3)两个branch 都用显著图的Ground Truth加以监管。

该篇和【2019-part2】第1篇论文思想有些相似,都根据初始预测图产生attention map 用于指导更新特征进而产生更优的显著预测图。这里使用HAM,那里借助膨胀腐蚀操作。

4.《An Iterative and Cooperative Top-down and Bottom-up Inference Network for Salient Object Detection》

网络结构图如下:

显著性检测2019(ICCV, CVPR)【part-1】_第7张图片
作者对当前显著预测模型做了归类,大多都是(a)(b)两类。既然bottom-up可给出high-level的显著预测图,top-down又可融入低层特征优化预测图,为什么不交替执行这两个过程相互促进呢?进而提出了一个大一统模型(c),交替协同bottom-up/top-down 模型。 之前基于FCN(bottom-up/top-down)的模型结构都可看做本模型的特例。
显著性检测2019(ICCV, CVPR)【part-1】_第8张图片
采取特征共享,权重共享策略,尤其权重共享,所有bottom-up/top-down路径上的权重统一,大大降低了参数量。
采用基于RNN的推断网络。step-by-step给出当前路径当前layer的预测。
使用深度监管策略
显著性检测2019(ICCV, CVPR)【part-1】_第9张图片
每个迭代过程的每个路径的每个层的每个step 都进行监管。
最后一个迭代过程的top-down路径的最低层(第1层)的最后一个step给出的显著图预测为最终预测结果。

你可能感兴趣的:(CV--显著性检测)