语义分割模型


title: 语义分割模型
date: 2019-09-25

原本在个人博客上写了一些博文,现转移到CSDN上

语义分割模型

一、FCN

  • 源码:https://github.com/shelhamer/fcn.berkeleyvision.org
  • 解释:
    FCN对图像进行像素级的分类,从而解决了语义级别的图像分割问题。与经典的CNN在卷积层使用全连接层得到固定长度的特征向量进行分类不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷基层的特征图(feature map)进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每一个像素都产生一个预测,同时保留了原始输入图像中的空间信息,最后奇偶在上采样的特征图进行像素的分类。
    -全卷积网络(FCN)是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。
    FCN将传统CNN中的全连接层转化成一个个的卷积层,在传统的CNN结构中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个类别的概率。FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1)。所有的层都是卷积层,故称为全卷积网络。 
    ————————————————
    版权声明:本文为CSDN博主「moonuke」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/qq_36269513/article/details/80420363

二、SegNet

  • 源码:https://github.com/alexgkendall/caffe-segnet

  • 数据集:SegNet (3.5K dataset training - 140K)

  • paper link:https://arxiv.org/pdf/1511.00561.pdf

  • 特点:
    SegNet的编码器部分使用的是VGG16的前13层卷积网络,每个编码器层都对应一个解码器层,最终解码器的输出被送入soft-max分类器以独立的为每个像素产生类概率。

    每个编码器由数个蓝色层(卷积层,批归一化层,RELU层)以及一个Pooling层(2x2窗口,步进2,最大池化)组成,输出相当于系数为2的下采样。

    最大池化过程中会损失一些信息,因此这里储存了max-pooling indices,保存最大池化过程中的位置信息,用于在上采样的时候进行恢复。

    与FCN相比,训练精度更高也更快。

    可在http://mi.eng.cam.ac.uk/projects/segnet/进行实验

三、U-Net

  • 源码:https://github.com/milesial/Pytorch-UNet
  • paper link:https://arxiv.org/pdf/1505.04597v1.pdf
  • 特点:
    (1)改进了FCN,把扩展路径完善了很多,多通道卷积与类似FPN(特征金字塔网络)的结构相结合。
    (2)利用少量数据集进行训练测试,为医学图像分割做出很大贡献。

四、DeepLab

  • paper link:
    deeplab v1
    deeplab v2
    deeplab v3
    deeplab v3+
  • 源码:
    deeplab v3
    deeplab v3+
  • 特点:DeepLabv3进一步探讨空洞卷积,这是一个在语义分割任务中:可以调整滤波器视野、控制卷积神经网络计算的特征响应分辨率的强大工具。为了解决多尺度下的目标分割问题,我们设计了空洞卷积级联或不同采样率空洞卷积并行架构。此外,我们强调了ASPP(Atrous Spatial Pyramid Pooling)模块,该模块可以在获取多个尺度上卷积特征,进一步提升性能。同时,我们分享了实施细节和训练方法,此次提出的DeepLabv3相比先前的版本有显著的效果提升,在PASCAL VOC 2012上获得了先进的性能。

五、PSPNet

  • 源码:
    pspnet-github
    Keras
    tensorflow
  • 数据集:
    LMO dataset [22]
    PASCAL context datasets [8, 29]
    ADE20K dataset [43]
  • paper link:https://arxiv.org/pdf/1612.01105.pdf
  • 特点:
    1.提出pyramid scene parsing network
    2.提出effective optimization strategy for deep ResNet [13] based on deeply supervised loss
    3.建立一个系统
  • blog资源:https://www.jianshu.com/p/57329a0b7a2d

六、HRNet

  • 源码:
    Pose estimation
    Semantic segmentation
    Face alignment
    Image classification
    Object detection
  • 特点:
    分类网络在视觉识别中占据主导地位,从图像级分类到区域级分类(目标检测)和像素级分类(语义分割、人体姿态估计和人脸地标检测)
    这个名叫HRNet的神经网络,拥有与众不同的并联结构,可以随时保持高分辨率表征,不只靠从低分辨率表征里,恢复高分辨率表征。如此一来,姿势识别的效果明显提升:
    在COCO数据集的关键点检测、姿态估计、多人姿态估计这三项任务里,HRNet都超越了所有前辈。
  • blog资源:https://blog.csdn.net/weixin_37993251/article/details/88043650

另:实例分割、语义分割网络大全 https://blog.csdn.net/qq_41007606/article/details/84025902

包括:

  • 数据集
    2D数据集、2.5D数据集、3D数据集
  • 图像标注工具
  • papers
  • blog资源

你可能感兴趣的:(深度学习)