简述
Pyramid Scene Parsing Network
作者为了引入足够的上下文信息以及不同感受野下的全局信息来提出global-scene-level的信息,即PSPNet
Links
原文地址
代码:
- pspnet-github
- Keras
- tensorflow
效果图
与传统方法FCN的比较
- Mismatched Relationship:上下文关系匹配对理解复杂场景很重要,例如在上图第一行,在水面上的大很可能是“boat”,而不是“car”。虽然“boat和“car”很像。FCN缺乏依据上下文推断的能力。
- Confusion Categories: 许多标签之间存在关联,可以通过标签之间的关系弥补。上图第二行,把摩天大厦的一部分识别为建筑物,这应该只是其中一个,而不是二者。这可以通过类别之间的关系弥补。
- Inconspicuous Classes:模型可能会忽略小的东西,而大的东西可能会超过FCN接收范围,从而导致不连续的预测。如上图第三行,枕头与被子材质一致,被识别成到一起了。为了提高不显眼东西的分割效果,应该注重小面积物体。
融合合适的全局特征,将局部和全局信息融合到一起
2017年之前效果最好的文章
提升结果的Trick
- Various data augmentation
- Dropout to the last convolution
- Using dilated convolution
- Learning rate policy
- Total iteration number
- Correct way to use batch normalization
- Larger cropsize and larger receptive field
(这里面使用了许多细节的trick使得效果比较好)
Evils in the details
Deeply supervise for better optimization
实施过程
评价
- 此方法算是用了一些Trick来获得比赛的高分, 但是效果也很好
- Time consuming so that only useful for competitions
总的方法提升效果如下图所示: