语义分割模型

1.FCN

语义分割模型_第1张图片

(1)通道数 21 的特征层,21 = 数据集类数20 + 背景1,每一个像素有21个通道,对21个通道进行softmax回归,之后就可以获得每一个像素的每一个类别的预测概率,因为可以确认像素概率最大的那一类。

在这里插入图片描述

在这里插入图片描述

(2)CNN中的最后通过全连接层,输出为一个一维向量,在每一个通道中显示这张图片对应每种类别的概率。然而在在FCN中,最后输出是一个二维数据,可以去看到每一个像素的信息。那么是如何将全连接层转换成卷积层?

         因为参数数量一致(下图计算),所以将全连接层的每一个节点对应的权重进行reshape,就可以给卷积层来使用了。

语义分割模型_第2张图片

(3)上采样有三种方式:双插值,反卷积,反池化三种

2.Unet

(1)采用了与FCN不同的特征融合机制,concat(类似于yolov3的特征融合)

(2)引用了overlap-tile策略

语义分割模型_第3张图片

https://blog.csdn.net/soaring_casia/article/details/110677745?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167204606516800213020617%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167204606516800213020617&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-110677745-null-null.142^v68^pc_rank_34_queryrelevant25,201^v4^add_ask,213^v2^t3_esquery_v3&utm_term=overlap-tile%E7%AD%96%E7%95%A5%E5%AE%9E%E7%8E%B0&spm=1018.2226.3001.4187

(3)overlap-tile策略讲解引用于这篇帖子

(4)随机弹性变形进行数据增强

(5)采用了加权交叉熵

3.Segnet

(1)将最大池化指数转移至解码器中,也就是保留了池化层提取参数的位置信息,在反池化层时复原到对应位置上(其他位置补0)

语义分割模型_第4张图片

 4.Multi-Scale Context Aggregation by Dilated Convolutions

(1)使用了空洞卷积,这是一种可用于密集预测的卷积层;

(2)提出在多尺度聚集条件下使用空洞卷积的“背景模块”。

(3)在vgg网络的基础上,用空洞卷积来替换vgg中的下采样层,来做到维持图片的尺寸。空洞卷积层在不降低空间维度的前提下增大了相应的感受野指数。

5.DeepLab(V1&V2)

(1)引入了条件随机场,利用像素间的关系来增加分类准确率

(2)ASPP是由空洞卷积(Atrous/Dilated Convolution)组成。如果想要对图片提取的特征具有较大的感受野,并且又想让特征图的分辨率不下降太多(分辨率损失太多会丢失许多关于图像边界的细节信息),这两个是矛盾的,想要获取较大感受野需要用较大的卷积核或池化时采用较大的strid,对于前者计算量太大,后者会损失分辨率。而空洞卷积就是用来解决这个矛盾的。即可让其获得较大感受野,又可让分辨率不损失太多。

语义分割模型_第5张图片

你可能感兴趣的:(人工智能,深度学习)