[论文笔记]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

论文链接:SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
caffe代码:https://github.com/TimoSaemann/caffe-segnet-cudnn5
工程主页:http://mi.eng.cam.ac.uk/projects/segnet/
本篇论文使用了对称的Encoder-Decoder网络结构来实现语义分割,如下图:

[论文笔记]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation_第1张图片

基于VGG16的对称网络结构,网络把全卷积层去掉了,这样就可实现end-to-end的训练,节省计算时间。
论文中提到如果把encoder卷积层的信息加入到decoder中会提高准确率,但是运算消耗增加,因此作者并没有这么做,采用了一种Unpooling的方法,如下图


[论文笔记]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation_第2张图片

Unpooling:首先在pooling的时候记录max pooling 选择的最大值的location,然后在Unpooling层利用记录的位置还原回原location,从而恢复成pooling前同样大小,其它像素用0代替,得到稀疏的响应图(sparse avtivation map) ,再用deconvolution使稀疏响应图变得稠密

比较结果

[论文笔记]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation_第3张图片

可以看出网络大小相比FCN是要小很多,但是时间上由于加了很多去卷积层,所以并不快,下面是几篇相似的也是用去卷积网络的论文
Learning Deconvolution Network for Semantic Segmentation
U-Net: Convolutional Networks for Biomedical Image Segmentation
Convolutional Neural Pyramid for Image Processing
Let there be Color: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification

你可能感兴趣的:(论文笔记)