论文阅读——Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

论文阅读之GSCNN
Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
Bilinear+ASPP的GSCNN语义分割网络
from ICCV2019
Project Website

摘要

目前的语义分割还是通过逐像素点的密集分类框架完成,但有时不太理想。本文设计了一种双流模型,在常规流之外引入形状流分支额外处理形状信息,而且负责处理形状信息的网络结构不用太深就可以提升细小结构的边缘分割效果。最终在Cityspaces数据集中获得了2%mIoU的提升。

Section I Introduction

目前语义分割网络广泛用于自动驾驶、3D重建、图像生成等。常规的一种语义分割网络实现形式是将常规分类CNN网络中的全连接层替换成卷积搭建成FCN网络,但这种基于分类的网络框架用于县四级的密集预测还存在一系列问题。其一就是连续池化带来空间分辨率的下降 ;其二是将颜色、形状、纹理等信息集中用一个网络进行提取并不高效。一般颜色、纹理更多包涵浅层信息,形状蕴含更多的深层语义信息,,融合进一个网络进行提取往往效果没有那么好。像残差连接、密集连接的有效性就很好的佐证了这一点,因为他们通过这些连接方式增加了不同类型信息之间的流动。
因此本文提出了一种双流语义分割网络,通过单独的形状流网络学习边缘信息后与常规流网络进行信息融合用于提升分割效果。
GSCNN网络结构分为三部分:
常规流(Classical Stream),形状流(Shape Stream),融合模块(Fusion Module)。

其中常规流可以使任意的特征提取网络,如ResNet等,关键之处在于允许两个网络之间的信息交互流动,将classical stream中提取到的去噪后的语义信息作为shape stream的输入,从而让形状流专注于边缘信息的学习和处理,由于涉及到两个网络,损失函数也做了相应改变。
这样搭建的GSCNN尤其对细微边缘小物体的分割效果有提升(比如Cityspaces中的电线杆、交通灯、指示牌等)。

论文阅读——Gated-SCNN: Gated Shape CNNs for Semantic Segmentation_第1张图片


# Section II Related Work

语义分割


FCN是开山之作,后变为了牺牲边缘分割效果提出了基于CRF的一系列改进;另一个优化方向则是网络结构上的优化从而提升分割性能或推断时间。比如借助金字塔池化进行多尺度融合的PSPNet,DeepLab系列等。本文新加入的形状流也是为了恢复因池化导致的分辨率下降。



多任务学习



联合利用多个网络可以提升学习效率、预测精度、模型泛化性能等,这样网络之间可以共享各自的特征表达用于多个任务。本文虽然不是训练一个多任务网络,但也是通过分割信息和边缘信息这种二元化党的结构获得更具代表性的特征表达,损失函数中可以看出包含了分割和边缘预测的loss值。



门控卷积



门控网络常见于RNN中处理时序序列,还有用于图像去噪、图像生成;本文的门控主要用来控制常规网络和形状网络之间的信息流动。







# Section III GSCNN








GSCNN主要由常规流(classical stream)和形状流(shape stream)组成的双流网络结合最后的融合模块(fusion module)组成。在形状流中精心设计了门控卷积层(GCL,Gated Convolution Layer)从而确保只处理边缘信息;最后将语义信息结合形状信息经融合模块融合后共同用于分割。







论文阅读——Gated-SCNN: Gated Shape CNNs for Semantic Segmentation_第2张图片








Part A Regular Stream





常规流就是输入尺寸为[C,H,W]的原图产生像素级的分割图谱,大小为[C,H/m,W/m],可以是任意的分割网络,如基于ResNet,基于VGG的语义分割网络。
本文采用的是ResNet-101和WideResNet。





Part B Shape Stream






形状流将常规流中不同层次的特征图谱作为输入,输出边缘分割结果形状,也就是做边缘的二分类任务。主要包括residual block,中间插入了GCL层,GCL的作用是确保只处理边缘信息。







Part C Fusion Module







融合模块将分割网络产生的分割图谱和形状网络产生的边缘二分类结果均作为输入,通过ASPP对多尺度信息进行采样,保留更多边缘信息从而提升分割效果。







Part D GCL






详解
Gated Convolution Layer用来控制分割网络向形状网络间的信息流动,确保形状网络只聚焦于边缘信息,滤除其他信息。

在这里插入图片描述
在这里插入图片描述

比如在本文中将分割网络level1,3,4,5作为形状网络的输入,以L1为例,会经过1x1卷积+res block后作为GCL1层的输入,GCL1的另一个输入是L2经1x1Conv之后的结果。






rt st分别代表同一层次的特种表达和形状表达,两者经过级联->1x1Conv->sigmoid后获得注意力权重alpha,随后将st与注意力alpha做点乘;加上原始的st(残差)乘上一个通道权重wt获得该层GCL的输出。也作为下一层GCL计算的一个输入。
本文一共经过了3层GCL,最终输出的是边缘的分割图。
Part E 多任务联合学习







在融合模块中完成常规特征和边缘特征的联合学习。因此损失函数也包括两部分,分割图使用的是像素级别的交叉熵损失函数(Cross Entropy),边缘图使用的是Binary Cross Entropy.两者权重由lambda1,lambda2控制。在边缘分割中由于边缘和非边缘区域存在比例不均衡,通过beta系数来平衡二者的比例问题。

Section IV实验结果

数据集:Cityspaces

包含德国及其邻近国家共27个城市,train:val:test = 2975:500:1525,还参考了前人工作获得了做边缘分割的GT结果。


评价指标:


mIoU表征分割准确率,



F-score表征边缘分割效果,




distance-based通过不同的裁减系数衡量GSCNN在不同比例目标上的分割性能。





论文阅读——Gated-SCNN: Gated Shape CNNs for Semantic Segmentation_第3张图片

实验设定细节:




batch_size = 16
lr = 1e-2+多项式衰减
消融实验、分割实验分别训练100,230个epochs。
Part A分割质量

在分割精度上提升2%,边缘分割提升了4%,详见Table 1、Table 2.尤其是对小目标9pole)的分割精度的提升。
Fig 6可视化了将要送入融合模块的形状流的输出。
论文阅读——Gated-SCNN: Gated Shape CNNs for Semantic Segmentation_第4张图片


从 Fig10对不同CGL层的可视化结果来看,GCL1-3对边缘的检测逐渐由简单到复杂,最开始仅检测边缘,越往后会按照一定语义进行边缘的分割,因此基于边缘信息送入融合模块从而提升了分割性能。

论文阅读——Gated-SCNN: Gated Shape CNNs for Semantic Segmentation_第5张图片

Part B消融实验
通过消融实验可一件除GCL由于更关注边缘信息,对F1-score提升效果明显,Canny边缘图提取的梯度提升mIoU。

论文阅读——Gated-SCNN: Gated Shape CNNs for Semantic Segmentation_第6张图片

Section V Conclusion

本文提出的GSCNN是一种新颖的基于双流结构的语义分割网络,通过在形状分支中引入门控机制提升对边缘信息的利用,同时提出了新的损失函数。最终在分割精度及边缘分割都获得了不小的提升。

你可能感兴趣的:(CV,计算机视觉,机器学习,人工智能)