论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes

Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes

自动驾驶领域:一种实时高精度的城市道路场景语义分割方法

发布:IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS

原文:原文地址

 

总结

在本文中,提出了一种新的实时高性能语义分割方法,以实现在准确性和速度之间的平衡。该方法由四个主要部分组成:LBN-AA、DASPP、SPN和FFN。LBN-AA利用轻量化网络、卷积、卷积关注模块提取特征,得到密集的特征图。DASPP增加了输入特征的多样性,利用丰富的上下文信息有效地解决了语义分割的多尺度问题。SPN的设计是为了保留丰富的空间信息,弥补细节的缺失。FFN负责融合高级和低级特性。这些组件通过紧密耦合和联合优化来保证语义分割的有效性。在城市景观和CamVid数据集上的定性和定量结果证明了该方法的有效性和效率。该方法中的一些模块不仅可以用于实时语义分割,而且可以用于精确的语义分割。

网络模型

论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes_第1张图片

方法

LBN-AA
可以看到在MobileNetV2采用带孔卷积,特征图尺寸最小为1/8,而不会丢失太多信息。

进一步在改进的MobileNetV2中添加了几个卷积注意模块(CAM)来选择信息通道。利用CAM生成的权值来指导网络学习,从而得到加权特征图。这种方法有利于突出重要信息,抑制不相关信息。

具体配置参数如图所示:

 论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes_第2张图片

CAM:通道注意力机制

论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes_第3张图片

CAM首先采用全局平均池化和1×1卷积,再采用批处理归一化和LeakyReLU将输出特征的重要性编码为一个向量。注意,输入通道的数量减少了1×1卷积操作,有效地提高了凸轮的效率。然后,全连通层和Sigmoid函数得到关注向量。最后,根据注意向量对特征图的不同通道进行加权。

论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes_第4张图片
由于只采样非零值的位置,接受域覆盖了棋盘格模式的区域,导致一些邻近信息丢失(见上中的灰色网格)。因此,LBN-AA可以通过将这些块的特征图连接起来,生成一个稠密的采样图,其中不同块的相邻信息可以进行互补。

独特的空间金字塔池DASPP
在并行的带孔卷积分支中,分别采用池大小为3×3、5×5和7×7。三个支路的3×3 带孔卷积运算对应的atrous率分别为12、24和36。将ASPP中原始的1×1卷积分支改为1×1卷积和3×3卷积运算,有效地提高了特征提取的能力。仍然采用图像级池化层来捕获全局上下文信息。如下图所示:

 论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes_第5张图片

空间细节保护网络(SPN)
使用一个精简版的ResNet-18前两层为SPN(详见下表)。将LBN-AA中的layer1和block2的输出连接起来作为SPN的最终输出。SPN最终输出的feature map是原始输入图像大小的1/4,包含88个通道。虽然SPN得到的feature map分辨率较大,但计算代价较小(因为压缩版ResNet-18只使用了浅卷积层)。
论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes_第6张图片

特征融合网络(FFN)
首先将两个分支的特征图沿通道连接起来。然后应用BN操作缩短特征距离,平衡特征尺度。两个特征图相同位置的像素不一定相似,它们可能与该位置上相邻的像素相似。采用size为3×3,arous rate d = 2的带孔卷积来融合特征。该操作能够有效地结合目标像素周围相邻像素的特征信息,而不是仅仅依赖于一个位置。然后用大小为1×1的投影卷积将输出通道的数量减少到语义类别的数量(216个减少到19个-标签的类别个数)。在带孔卷积和投影卷积之间也使用了BN层。最后,利用简单而高效的双线性插值,直接将融合结果上采样到原始输入图像的大小。双线性插值只需要很少的参数,可以达到与转置卷积相似的精度。
 

cityscapes数据集测试结果

论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes_第7张图片

 

思考

拼拼凑凑的一个方法,没有大的创新之处,个人觉得他的最终结果比较有点emmm,用自己的448*896的小输入图和人家1024*1024大输入图比指标,好过分

你可能感兴趣的:(文献解析paper,卷积,计算机视觉,深度学习,机器学习)