深度学习语义分割FCN理解

深度学习分类网络CNN在对图像的特征进行提取之后都进行了数个全连接网络进行分类预测,从而让得到的深度特征丢失了空间信息。如下图,通过最后的三层全连接输出1000个分类的概率进行判断图像类别。

深度学习语义分割FCN理解_第1张图片
为了不丢失深度特征的空间信息,FCN采用将对每一个pixel进行分类预测,采用的措施是将最后的三层全连接改成卷积,同时输出的是FFclasses的heatmap,接下来进行图像复原“复原”,放大到原来图像的尺寸大小再进行每一个像素的类别预测,这里的复原技术有许多,最简单的是双线性插值,还有转置卷积等。
深度学习语义分割FCN理解_第2张图片
这里边需要注意的是,使用双线性插值进行复原时我们可以理解为整个可训练的模型就截止到1000分类卷积,应为双线性插值不需要提供任何额外的参数。而转置卷积,则还可以通过转置的权重训练来调整预测输出。(ps:这个是我个人的理解,如有不对烦请务必提醒我更改)

从下图可以看出,使用只使用最后的一层卷积输出进行32s预测的像素是非常粗糙的,为此分别采用融合pool4 和pool3的信息可以使得细节处理到位。
深度学习语义分割FCN理解_第3张图片
深度学习语义分割FCN理解_第4张图片
以上是个人的一些理解
更为详细的推荐阅读:
https://zhuanlan.zhihu.com/p/22976342
https://zhuanlan.zhihu.com/p/30195134

你可能感兴趣的:(deep,learning)