DenseASPP for Semantic Segmentation in Street Scenes
原文地址:DenseASPP
收录:CVPR2018(IEEE Conference on Computer Vision and Pattern Recognition)
代码:
简介:
将DeepLab系列中的ASPP和DenseNet中的密集连接相结合,构成了DenseASPP。新的模块具有更大的接收野和更密集的采样点。在CityScapes上获得了state-of-the-art的标签。
关于扩张卷积和DenseNet的相关文章解读:
使用扩张卷积(Atrous Convolution)能够在不牺牲特征空间分辨率的同时扩大特征接收野,DeepLab系列工作结合多尺度信息和扩张卷积的特点提出了ASPP模块,将不同扩张率的扩张卷积特征结合到一起。但论文认为ASPP模块在尺度轴上特征分辨率还不够密集,获取的接收野还不够大,为此提出了DenseASPP(Densely connected ASPP),以更密集的方式连接一组扩张卷积,获得了更大的范围的扩张率,并且更加密集。在没有显著增加模型大小的情况下,DenseASPP在CityScapes上达到了State-of-the-art的表现。
扩张卷积用于解决特征图分辨率和接收野之间的矛盾,ASPP利用了多尺度信息进一步强化了分割效果。DeepLabv2中的ASPP模块如下:
但是在自动驾驶等领域有高分辨率的输入,ASPP为了获取足够大的感受野需要足够大的扩张率,但随着扩张率增加(d>24),扩张卷积的衰退衰减无效了(DeepLabv3中分析过这个问题)。
DenseNet中用密集连接获得更加的性能:
但因为密集连接,特征的通道数会急速上升,DenseNet中使用 1×1 1 × 1 的卷积用于降低通道数,限制了模型大小和计算量,同样的,在本文中也使用了多个 1×1 1 × 1 卷积用于降低参数,限制计算量。
论文提出的DenseASPP用于解决街道场景的尺度挑战,DenseASPP包含了一个基础网络,后面接了一个多级的扩张卷积层,如下图所示:
使用密集连接的方式将每个扩张卷积输出结合到一起,论文使用了较合理的扩张率(d<24),通过一系列的扩张卷积组合级联,后面的神经元会获得越来越大的感受野,同步也避免了过大扩张率的卷积导致的卷积退化。
并且通过一系列的扩张卷积组合,特征图上的神经元对多个尺度的语义信息做编码,不同的中间特征图对来自不同尺度的信息做编码,DenseASPP的最终输出特征不仅覆盖了大范围的语义信息,并且还以非常密集的方式覆盖了做了信息编码。
总结,论文的主要贡献在于:
需要注意的是,上述两个特性不能通过简单的并行或级联堆叠扩张卷积实现。
深度卷积神经网络为了获取更大感受野的特征会使用下采样(或池化),但这会降低特征的分辨率,虽然获得特征的内部不变性但丢失了很多细节。DeepLab系列使用了扩张卷积获取更大感受野的同时保持图像的分辨率,并进一步提出了ASPP模块结合了多尺度信息,与此类似有PSPNet结合了不同尺度的池化信息。论文提出的DenseASPP结合了平行和级联的扩张卷积优点,在更大范围内生成更多尺度的特征。
DenseASPP是DenseNet的特例,可以看做是所有扩张率设置为1,这分享了DenseNet的优点,包括缓解了梯度消失的问题和大幅度减少参数。
在城市交通道路环境中,存在不同尺度的目标物,这需要捕获不同尺度的特征,DeepLabv3给出了两个策略:
论文使用 HK,d(x) H K , d ( x ) 表示一个扩张卷积,ASPP表示如下:
DenseASPP的结构如下:
可以看到扩张卷积级联起来,并且扩张率逐渐的增加,前面的层扩张率较低,后面的层扩张率较大。这和DenseNet的连接非常相似,DenseASPP的最终输出是由多扩张率、多尺度的扩张卷积生成的特征组成。可以将DenseASPP用如下公式表示:
denser feature pyramid
)larger receptive field.
)扩张卷积能够增加卷积核的接收野,对于一个扩张率 d d ,卷积核大小为 K K ,接收野为:
堆叠两个扩张卷积能够得到更大的接收野,假设我们有两个卷积大小为 K1,K2 K 1 , K 2 ,则感受野为:
DenseASPP由包含扩张率为 3,6,12,18 3 , 6 , 12 , 18 的扩张卷积,每组数字的表示扩张率的组合,长度表示等效的卷积核大小, k k 表示实际的接收野,如下所示:
K=3,d=3
: (3−1)×(3−1)+3=7 ( 3 − 1 ) × ( 3 − 1 ) + 3 = 7 K=3,d=6
: (6−1)×(3−1)+3=13 ( 6 − 1 ) × ( 3 − 1 ) + 3 = 13 K=3,d=3,d=6
: K=3,d=12
: (12−1)×(3−1)+3=25 ( 12 − 1 ) × ( 3 − 1 ) + 3 = 25 K=3,d=3,12
: 7+25−1=31 7 + 25 − 1 = 31 K=3,d=3,6,12
: 7+13+25−2=43 7 + 13 + 25 − 2 = 43 K=3,d=3,6,12,18
: 7+13+25+37−3=79 7 + 13 + 25 + 37 − 3 = 79 显然,堆叠的扩张卷积下的DenseASPP的接收野是ASPP的一个超集(super set)。
下图(a)显示了一个传统的一维扩张卷积,扩张率为6,接收野为13:
这么大的接收野条件下,只有3个像素被采样了用于计算,这样的情况下二维的情况下会更严重,虽然得到了更大的接收野,但是在计算的过程中丢弃了大量的信息。
上图(b)是扩张率3和扩张率为6的组合,和原先的扩张率为6的卷积(a)相比,(b)有7个像素参与了计算,计算更加密集。这在二维的情况下(c)有49个像素有助于计算。较大扩张率的卷积可从较小扩张率卷积中获得帮助,使得采样更为密集。
原先的ASPP是四个分支并行处理前馈,而DenseASPP模块通过了跳层共享了连接信息,大和小扩张率的卷积相互依赖,不仅构成了密集的特征金字塔,同时也获得了更大的接收野。
我们用 Rmax R m a x 表示特征金字塔的最大接收野,函数 RK,d R K , d 表示卷积核大小为 K K 的扩张率为 d d ,则ASPP(6,12,18,24)的最大接收野为:
而相对的DenseASPP(6,12,18,24)的最大接收野为:
和DenseNet类似,DenseASPP也在扩张卷积之前使用了 1×1 1 × 1 卷积用于减少特征图数,假设每个扩张卷积输出 n n 的特征图,DenseASPP有 c0 c 0 个特征图作为输入,在第 l l 的 1×1 1 × 1 的卷积之前的第 l l 个扩张卷积有 cl c l 个输入特征图,则:
其中 L L 表示扩张卷积的层数, K K 表示卷积核大小。例如DenseNet121有512个通道,则 n n 设置为64。又因为每个扩张卷积之前都会有一个 1×1 1 × 1 的卷积层用于减少通道数到256。因此,DenseASPP输出具有832个通道,参数比相应的DenseNet121要小很多。
论文在CityScapes上测试,评价标准为mIoU.
论文在PyTorch上实现,基本主干是在ImageNet上预训练,论文移除了后面两个池化层和分类层,对后面的层使用可扩张率为2和4的扩张卷积(这和DRN的处理方式一样)。修改后的ConvNet的输出是原输入的 18 1 8 ,后面接DenseASPP然后上采样与ground truth做cross entropy。
项目 | 配置 |
---|---|
平台 | PyTorch |
优化器 | Adam |
权重衰减 | 0.00001 |
学习率 | 初始是0.0003,采用的时poly策略, 1−epochmaxepoch0.9 1 − e p o c h m a x e p o c h 0.9 |
数据增强 | 随机翻转,随机放缩 [0.5,2],随机亮度抖动 [ 0.5 , 2 ] , 随 机 亮 度 抖 动 [-10,10],以及随机的 512×512 512 × 512 的随机裁剪 |
所有的模型使用batch=8,跑了80个epoch,每轮的BN参数是统一更新的。
论文使用了ResNet101为主干,配合DenseASPP(6,12,18,24)模块,在验证集上的结果如下,可以看到DenseASPP显著的提升了结果:
部分的可视化结果如下:
不同的DenseASPP设置得到的结果如下:
可以看到大概的趋势是随着接收野的增大,性能也提升。直到接收野到128后逐渐下降。
论文在DenseNet161的基础上在精标签的数据上做训练,使用了多尺度 {0.5,0.8,1.0,1.2,1.5,2.0} { 0.5 , 0.8 , 1.0 , 1.2 , 1.5 , 2.0 } ,与现有的先进模型对比,最终的结果如下:
各个分类结果如下:
论文研究了接收野大小和尺度/像素的采样率。
可以看到下面两个例子,有足够的上下问才能够准确分类:
配合的移除后续池化层的可视化结果:
DenseASPP和ASPP对比的接收野如下:
DenseASPP能够以更密集的方式连接一组扩张卷积,可以在很大范围内有效的生成密集的空间采样和特征,在CityScapes上测试得到了state-of-the-art的结果。