LEDNet:一种轻量级的用于实时语义分割的编解码器网络

LEDNet:一种轻量级的用于实时语义分割的编解码器网络

paper: arXiv:1905.02423v3
code: https://github.com/xiaoyufenfei/LEDNet

针对在移动设备中CNN任务实时性要求,南邮提出了一种轻量级网络—LEDNet,采用非对称编码器 - 解码器架构来完成实时语义分割。

①在编码器部分
使用ResNet作为骨干网络,并且在每个残差块中都使用大家较为熟悉的操作信道分离和混洗

②在解码器部分
采用注意金字塔网络(APN)进一步减少网络的参数。

模型具有不到1M的参数,并且能够在单个GTX1080Ti GPU中以超过71 FPS的速度运行。 在CityScapes数据集的速度和准确性权衡方面取得了最先进的结果。

下面是网络的整体框架:
LEDNet:一种轻量级的用于实时语义分割的编解码器网络_第1张图片
编码器Ecoder network是一个类似于FCN的网络,解码器就是一个注意力金字塔。
LEDNet:一种轻量级的用于实时语义分割的编解码器网络_第2张图片
上图中(a) bottleneck , (b) non-bottleneck-1D,© ShuffleNet , (d) our SS-nbt module.
SS-nbt的设计中采用了分裂 - 变换 - 合并策略,接近大型和密集层的代表性能力,但计算复杂度要低得多。 在每个SS-nbt的开始处,输入被分成两个低维分支,其中每个分支具有输入的半个通道。 为了避免逐点卷积,使用一组专用1D滤波器(例如,1×3,3×1)执行变换,并且使用串联合并两个分支的卷积输出,使得信道的数量保持相同。
针对LEDNet,本文主要写三个主要部分:通道分离、通道混洗、注意力金字塔看看他们在网络中的作用,以及为什么这么有效。

1.通道分离

关于通道分离为什么可以减少参数量,我们可能听说过分组卷积,比较经典的分组卷积可以参考 Inception,更直接地,可以参考论文ResNeXt。其实对ResNet网络中卷积进行分组就是ResNeXt。下面举个例子来说明通道分离的作用:
LEDNet:一种轻量级的用于实时语义分割的编解码器网络_第3张图片
如卷积通道数为6,卷积核为7×7,则复杂度为6×7×7×6=1764.我们把卷积分为三组A、B、C,而分组卷积的复杂度为3×(2×7×7×2)=588,减少了3倍,并且没有特征损失。

2.通道混洗

关于通道混洗,可以参考论文ShuffleNet。借用论文ShuffleNet中的图:
LEDNet:一种轻量级的用于实时语义分割的编解码器网络_第4张图片
可以看到,(a)没有进行通道混洗操作,每个输出通道仅与组内的输入通道相关,没有进行相互通信。(b)当GConv2在GConv1后从不同的组中获取数据时,输入和输出通道是相互联系的。(c)是(b)的等效实现。
进行通道混洗的操作主要是为了使各通道间相互通信,可以得到更详细的信息,从而提高网络精度。我认为,LEDNet采用的通道分离和混洗操作,主要参照ShuffleNet。

3.注意力金字塔

受注意力机制SENet的启发,解码器设计APN使用空间注意力机制进行密集估计。 为了增加感受野,APN采用了一个金字塔注意模块,它集成了不同金字塔尺度的特征。 如框架图所示,分别使用3×3,5×5和7×7卷积,令步幅为2,进行多尺度金字塔的构建,金字塔结构逐步融合不同尺度信息。由于高级特征映射具有较小的分辨率,因此使用大的卷积核尺寸不会带来太多的计算负担。 然后,将一个1×1卷积应用于编码器的输出,通过金字塔注意特征以像素方式多重合并卷积特征图。 为了进一步提高性能,引入了全局平均池化。最后,采用了一个上采样单元来匹配输入图像的分辨率。与堆叠多尺度特征图的DeepLab [5]和PSPNet [8]不同,我们的上下文信息在像素方面与原始卷积特征相乘,而不会引入太多的计算。

你可能感兴趣的:(论文笔记,LEDNet,神经网络)