3-SegNet 论文解读

SegNet
SegNet是基于FCN,修改VGG-16网络得到的语义分割网络,有两种版本的SegNet,分别为SegNet与Bayesian SegNet,同时SegNet作者根据网络的深度提供了一个basic版(4层的浅网络)。
1、SegNet网络框架:
3-SegNet 论文解读_第1张图片
SegNet由encoder,decoder和softmax分类层组成。SegNet和FCN类似,只是在Decoder(Upsampling)使用的技术不一样。此外SegNet的编码器部分使用的是VGG16的前13层卷积网络,每个编码器层都对应一个解码器层,最终解码器的输出被送入soft-max分类器以独立的为每个像素产生类概率。
左边是卷积提取特征,蓝色层包括卷积+批处理化+ReLU激活函数,绿色是pooling层,输入图像经过pooling增大感受野,同时图片变小,该过程称为Encoder,右边是反卷积(在这里反卷积与卷积没有区别)与upsampling,通过反卷积使得图像分类后特征得以重现,upsampling还原到图像原始尺寸,该过程称为Decoder,最后通过Softmax,输出不同分类的最大值,得到最终分割图。
SegNet的关键部分是解码器网络,由一个对应于每个编码器的解码器层组成。其中,解码器使用从相应的编码器接受的max-pooling indices来进行输入特征图的非线性upsampling.这个想法来自设计用于无监督功能学习的架构.在解码网络中重用max-pooling indics有多个实践好处:(1)它改进了边界划分(2)减少了实现端到端训练的参数数量(3)这种upsampling的形式可以仅需要少量的修改而合并到任何编码-解码形式的架构。
3-SegNet 论文解读_第2张图片
max-pooling indices是该网络的一个亮点,如上图,编码器在进行“编码”时,采用max-pooling生成如图abcd的像素分布,而indices是将其下采样时的位置保存下来,每一层编码层都保存其位置,然后通过这些位置实现“解码”。

2、FCN的Skip Layer:

3-SegNet 论文解读_第3张图片
上图是FCN的网络结构图,它的主要思想包括:

1.采用end-to-end的结构。

2.取消FC层。当图片的feature map缩小(下采样)到一定程度之后,进行反向的上采样操作,以匹配图片的语义分割标注图。

3.由于上采样会丢失信息。因此,为了更好的预测图像中的细节部分,FCN还将网络中浅层的响应也考虑进来。具体来说,就是将Pool4和Pool3的响应也拿来,分别作为模型FCN-16s和FCN-8s的输出,与原来FCN-32s的输出结合在一起做最终的语义分割预测。

FCN采用的反卷积是transpose convolution(即上采样)。如下图,3-SegNet 论文解读_第4张图片
该图来源:https://blog.csdn.net/antkillerfarm/article/details/78454417
下面的图是编码器下采样后的,FCN在解码器“解码”操作时,采用上图的transpose convolution反卷积。
3、Bayesian SegNet
相比于SegNet,除了在最后输出一个分类外,再另外生成一个置信度。与SegNet相比,该网络在卷积层中多加了一个DropOut层。最右边的两个图Segmentation与Model Uncertainty,就是像素点语义分割输出与其不确定度(颜色越深代表不确定性越大,即置信度越低)。
参考:https://blog.csdn.net/fate_fjh/article/details/534679483-SegNet 论文解读_第5张图片

你可能感兴趣的:(语义分割)