Pspnet: Pyramid Scene Parsing network

Pyramid Scene Parsing network

引入更多上下文信息来避免场景不匹配问题,误分割问题

通过全局均值池化和特征融合来实现的

 

引入上下文信息的方式:

  1. 增大感受野,dilated conv;全局均值池化操作
  2. 深层和浅层特征的融合,增加浅层特征的语义信息,这样在浅层进行分割时就有足够的上下文信息,同时也有目标的细节信息。

Pspnet: Pyramid Scene Parsing network_第1张图片

Backbone是添加了dilated conv的resnet(stride=8)

在pyramid pooling模块构建了深度为4的特征金字塔,不同深度的特征是基于输入特征通过不同尺度的池化操作得到的,池化的尺度是可以调整的,pspnet中池化后的特征尺寸是11,22,33,66.然后通过一个1*1卷积层将特征维度缩减为原来的1/4,最后将这些金字塔特征直接上采样到与输入特征相同尺寸和输入特征做合并,也就是concat操作得到最终输出的特征图。特征合并的过程就是融合目标的细节特征(浅层特征)和全局特征(上下文信息,深层特征)的过程,这里因为特征提取网络最后输出的特征层感受野足够大,所以有足够的全局信息,虽然网络不深,但是感受野大啊,这里和non-local能拿到全局的感受野信息还是有一定共通之处的,也就是说全局的信息对最终的结果又和好的启发作用。

 

你可能感兴趣的:(目标检测)