下面介绍全卷积网络最简单的结构,实际就是卷积层和反卷积层组成。即使只采用三个卷积层两个池化层(比Alexnet)更简单也能实现语义分割。下面语义分割的二分类和三分类为例。图像尺寸可以缩小到64x64.想要提升精度,在GitHub上有介绍最新的FCN结构完整语义分割任务,最新的结构无论是PSPNet,DeeplabV3,CCNet,DANet都是在想办法提升网络的感受野,利用上下文信息。从而提升语义分割的精度。这些网络在Cityscapes数据集的精度MIOU都在81%左右。这些网络介绍起来篇幅较大,因此可以根据本文后面的链接,阅读原文以及其开源代码。
先上一个图,这个图展示的是在Weizmann horse 数据集上做的一个语义分割任务时最简单的全卷积网络结构。其实写这个博客是想记录一下自己前段时间研究FCN的内容,主要工作是在两个数据集,一个是Weizmann horse 数据集,另一个是lfw数据集。同样是使用的FCN网络(层数不同,通道数不同),都是做的语义分割任务。马的这个数据集相对小一点,只有328张图,每张图有对应的标签,最后分割为背景和马;而lfw数据集全称是Labeled Faces in the Wild,分割为三个部分,头发、皮肤和背景。
最后分割的训练测试的效果如下图:
以上效果不是最佳效果,而是网络层极少,图像尺寸只有64x64,没有使用数据增强等手段。只是为了展示最简单的FCN。下面有介绍最新的网络结构。
Code is available in https://github.com/HqWei/Semantic-Segmentation-with-Full-Convolutional-Neural-Network.
## Introduction
Semantic segmentation in Weizmann horse dataset and Labeled Face in the Wild dataset.
## Method
### 最早的全卷积语义分割网络:
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
### 目前比较热门的结构:
#### PSPNet :Pyramid Scene Parsing Network
https://github.com/hszhao/PSPNet
#### DeeplabV3 :Rethinking Atrous Convolution for Semantic Image Segmentation
https://arxiv.org/abs/1706.05587
https://github.com/NanqingD/DeepLabV3-Tensorflow
#### 基于attention机制的:
##### CCNet: Criss-Cross Attention for Semantic Segmentation
https://github.com/speedinghzl/CCNet
##### DAN : Dual Attention Network for Scene Segmentation
https://github.com/junfu1115/DANet
## Datasets:
The download link for Weizmann horse dataset:
http://www.msri.org/people/members/eranb/
Labeled Face in the Wild:
http://vis-www.cs.umass.edu/lfw/
Related semantic datasets:
https://blog.csdn.net/bevison/article/details/78123403