基于深度卷积神经网络的VHR遥感图像城市建筑物语义分割(论文)

本主要采用Unet作为基础框架,并将Resnet中的从残差结构引入进来,与Uet一样都有一个encoder部分用于下采样提取信息,decoder不分用于恢复feature map的分辨率。

残差结构的主要作用就是为了缓解模型训练过程中经常出现的退化问题,采用残差的方法进行训练,最后在提出的网络末端加入一个softmax分类器,得到最终的分割结果。

这是文章提出的DeepResUnet的网络结构!

基于深度卷积神经网络的VHR遥感图像城市建筑物语义分割(论文)_第1张图片
基于深度卷积神经网络的VHR遥感图像城市建筑物语义分割(论文)_第2张图片
Resblock模块
基于深度卷积神经网络的VHR遥感图像城市建筑物语义分割(论文)_第3张图片
11卷积可以用来降维,但在有限的网络层数下也会导致一些用于分割的重要信息的丢失 所以在11之前,使用两个连续的33卷积层可以适当的提高性能(引用的,暂时没搞懂为啥,第一个33卷积层的通道是64,后面的128,在尽量不丢失信息的条件下缩小可模型的参数,文中提出的模型比原始Unet模型更深

下采样模块
受ENet的启发,在深度网络的输入层之后,采用了early downscale-sample的方法。这背后的假设是,来自初始图像层的特征映射包含有害的噪声,这些噪声将直接影响分割的结果,应该对其进行滤波。因此,添加大小为22的最大池化层来减少输入大小。虽然池化层能够减少网络的参数,但是会丢失分割所需要的空间信息。因此在池化层之前加入了55的卷积,通道数是128,以获得更大的感受野。

后面便是两个resblock的堆叠,加上一个最大池化层,来降低参数量并扩大感受野。并将输出送达上采样过程,特征重用。

Reblock的作用
baseline代表U型结构
basic residual unit代表用于Resnet34的残差块(b)
Bottleneck代表Resnet50 101 152中的残差块 (c)
Resblock代表文中提出的 (d)
Plain neural units代表普通的卷积层

性能比较
baseline+Bottleneck 相似于baseline+Plain neural units, 两者都接近于(小于)baseline+ basic residual unit,说明Bottleneck不能提升性能,但是baseline+ basic residual unit性能比baseline+Plain neural units好,说明残差块是有用的,baseline+Bottleneck 性能较差,说明其中的11卷积可能对性能有影响,
最终结果的显示将Bottleneck中的1
1个卷积层替换为33个卷积层的有效性,也表明将前33个卷积层的通道数减少一半对分割结果的准确性几乎没有影响,却大大减少了模型的参数量。

时间对比
baseline+Bottleneck > baseline+ Resblock > baseline+ basic residual unit和baseline+Plain neural units
基于深度卷积神经网络的VHR遥感图像城市建筑物语义分割(论文)_第4张图片
基于深度卷积神经网络的VHR遥感图像城市建筑物语义分割(论文)_第5张图片

你可能感兴趣的:(基于深度卷积神经网络的VHR遥感图像城市建筑物语义分割(论文))