「论文阅读笔记」A Stagewise Refinement Model for Detecting Salient Objects in Images

这是来自大连理工卢湖川实验室的一篇2D显著性目标检测,被收录于2017年的ICCV。

从题目来看,这篇论文叫一个基于“阶梯”细化的模型作用于检测显著性物体。

其大致的思路和DHSnet相同,都是先利用现成的模型生成一个比较粗糙的Mask,再利用一步一步的“阶梯”去细化。


问题

     To detect and segment salient objects accurately, it is necessary to extract and combine high-level semantic features with low-level fine details simultaneously. This happens to be a challenge for CNNs as repeated subsampling operations such as pooling and convolution lead to a significant decrease in the initial image resolution, which results in loss of spatial details and finer structures.

Saliency models can be roughly divided into two categories: unsupervised stimuli-driven and learning-based task-driven approaches.

However, purely utilizing low-level cues can hardly capture high-level semantic knowledge between the objects and their context. In contrast, learning-based approaches incorporate high-level information to better distinguish salient objects from the background clutter. This, however, often requires supervised learning with manually labeled ground truth maps.

Multiple stages of spatial pooling and convolutional layers progressively downsample the initial image which results in losing much of the fine image structure.

如果要让检测显著性物体的精确度提高,那就不可避免的需要同时提取高级特征和一些低级特征,但是麻烦的是在现在的基于CNN的模型中,由于重复的使用了一些下采样操作,比如像池化等操作会损失图像的分辨率,进而导致空间信息的不可逆丢失。

在目前显著性检测中主流的两种方法(无监督激励驱动和监督式数据驱动)都存在多个阶段的空间池化和卷积层逐步向下采样初始图像,导致大量精细图像结构的丢失。这对于一些只用来分类的任务比较有用,而目标检测是个挑战

所以总结一下,文章从摘要到介绍,贯彻至终的都是一个问题,如何解决由于众多下采样带来的细节损失。

贡献点

怎么解决上文提到的问题呢?

  • A pyramid pooling module is adopted to exploit global context information, where different spatial statistics provide varying-scale feature representations.
  • We propose a novel stage-wise refinement network where the refinement nets help renovate sharp and detailed boundaries in coarse saliency maps for high-resolution salient object segmentation.

两点:第一是提出了一个金字塔的池化模块提取更多的空间信息以用来补助损失的细节。第二点则是提出了一个基于循环“阶梯”的细化网络,从一个高分辨率的显著性物体中,更好的还原边缘细节。

与DHSnet有什么不同

这部分作者用了一大段来阐述区别,第一,在DHSnet中模型的最后一步使用的是全连接层,这样会增加计算开销,并且会丢失空间信息,在作者提出的模型中则使用了全卷积层代替,其次第二,作者认为,在DHSnet中是使用了整个encoder-decoder网络产生的粗糙mask细化,这样就很难得到一个最优的多尺度信息,而在SRnet中则仅仅使用了encoder,这样会使每个encoder的多尺度信息充分利用。

模型

「论文阅读笔记」A Stagewise Refinement Model for Detecting Salient Objects in Images_第1张图片

整个模型如上图显示,方框代表的是每一个Stage,c作为一开始的输入的RGB图,d是一开始产生的粗糙图像,绿色方框可以看做是残差块,也就是论文中采用的ResNet50(49层卷积层,5个卷积块),至此,整个流程可以描述为c作为输入经过ResNet缩小32倍再到两层卷积,上采样和真值作监督产生Loss1生成粗糙图d,与此同时,在Stage2输入C时,经过4层残差块的处理后传入PPM(Pyramid Pooling Module),结果与之前的d作加和传入后面的两层卷积层得到e,重复stage2的操作,输出结果。

实验结果

 

你可能感兴趣的:(阅读论文笔记)