A Simple Pooling-Based Design for Real-Time Salient Object Detection

这是一篇CVPR2019的文章

A Simple Pooling-Based Design for Real-Time Salient Object Detection_第1张图片

网络结构如上图所示,为改进的FPN的“倒U”字结构。首先是VGG16或ResNet50结构形成的bottom-up pathway,然后再进行上采样、特征图融合的up-down pathway。最终恢复到原输入图片大小,经过kernels=1的卷积层分类得到显著性图。

VGG16或者ResNet50降采样形成1/2、1/4、1/8、1/16四个特征图

1、GGM(Global Guidence Module)

1)PPM(Pyramid Pooling Module):由4个子分支组成,第一个子分支保持输入特征图不变,第四个子分支在空间上进行全局池化,第二、第三个子分支通过adaptive avg pooling变成3x3和4x4的大小。好处:通过多种尺度的池化增加深层的感受野的大小,能够避免大物体无法被整体识别

2)GGFs(Global Guilding flows):将PPM引出,以2x 4x 8x的尺度进行上采样和top-down路上的特征图进行融合。 好处:有效防止随着层数加深,忘记了top层的高层语义信息

2、FAM(Feature Aggregation Module)

A Simple Pooling-Based Design for Real-Time Salient Object Detection_第2张图片

将特征图分4路,分别保持原来大小,和2x 4x  8x的下采样、上采样,将4个支路的特征图相加后经过3x3卷积进一步融合。

3、联合边界检测任务一起训练

在FAM后加了3个residual blocks,从左到右通道数分别为128、256、512,每个residual block后跟了一个Conv3x3 kernels=16的卷积层来压缩特征,一个Conv1x1 kernels=1的卷积层进行边界检测。同时将3个3x3卷积层输出的特征图在通道上叠加,然后通过3个Conv3x3 kernels=48的卷积层将边界信息变换到显著性检测分支,来增强细节。作者实验发现,指出使用显著性图的GT的边界作为egde的GT进行训练效果不佳,而使用边界检测数据集和显著性检测数据集交替训练能够取得较好的结果。

4、损失函数

显著性检测使用二分类的交叉熵损失,边界检测使用正负样本平衡的交叉熵损失[40]。使用Conv1x1 kernels=1的卷积层进行二分类

疑问:

1、PPM不同分支池化的大小不同,怎么进行融合?

通过上采样

2、联合边界检测任务3个分支大小不同,怎么进行融合?(通过上采样)

 

 

你可能感兴趣的:(论文)