【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】

2019cvpr【In Defense of Pre-trained ImageNet Architectures for Real-time Semantic Segmentation of Road-driving Images】笔记

    • 摘要部分
    • Introduction
    • Related Work
    • The proposed segmentation method
    • 交错金字塔融合模型(Interleaved pyramid fusion model)
    • 试验
    • 结论

for Real-time Semantic Segmentation of Road-driving Images】笔记)

论文源代码:https://github.com/orsic/swiftnet.
论文:https://arxiv.org/abs/1903.08469?context=cs.CV

摘要部分

最近语义分割方法在路况驾驶数据集上的成功激励产生了很多相关应用。一些应用包含了在车,无人机,其他类型机器人等移动端上能够进行real-time预测。但是实时性在大量的计算数据面前很有挑战性。以前的模型处理这个挑战的方法通常是给模型“减负”,通过分别减少模型深度,宽度,以及隐藏层的通道数来进行。在本文中,作者提出了一个供选择的方法,即通过一种方法,能够在计算量充足的情况下有很好的表现。首先,作者以一个基本的light-weighted网络作为主要的检测网络。然后利用上采样在 the most cost-effective solution 存储 the prediction resolution.最后,通过融合共享特征来提高感受野。
论文的试验结果为:在CItyscapes有75.55%的mIOU,在GTX1080Ti显卡能达到的速度为 39.9HZ on 1024 * 2048 。

Introduction

语义分割是做到像素级别的分类水平。语义分割准确率比较高的模型都是基于全卷积模型做的,但是却需要花费太多的计算资源来进行计算。一些类似自动巡航,驾驶辅助等应用需要输入非常大的图片,从而得到更多的视野。并且需要低延迟带来的实时性输出。
一些语义分割模型为了能够达到实时性的要求,过多地缩小模型,导致不能够suited for large scale visual recognition。有的模型为了不过拟合,现在ImageNet进行预训练,然而通过这篇论文的试验发现这样的作用实际对过拟合的改进收益很小。
一个语义分割的简单模型往往是从一个全卷积层构成的编码机出发的,逐渐降低分辨率,提高特征图的尺寸来代表输入的特征。如果像素比较小,那么在远处的景象就不能够识别(例如交通指示牌,大约是输入图像尺寸的1/32),另外,如果感受野不大,那么对于大的物体也不能够对其进行正确的像素级的分类。这能够通过很多途径来解决,比如空洞卷积,有学习的上采样,横向连接以及resolution pyramids。但是并不是所有方法都适用于实时处理的模型中。
所以,在这篇论文中,提出了一种能够提高“瘦身之后的模型”的准确度和实时性的方法。提出的这种方法能够增加感受野,based on a resolution pyramid with shared parameters。提出的方法轻微提高了模型的大小,能够让模型检测到big object,最后通过一解码器有效且准确地得到预测结果。本文提出的模型超过了现阶段state-of-the art 的语义分割模型。

Related Work

前面介绍了解到,目前的语义分割模型面临着两个主要的问题,一个是重新恢复输入的像素和如何增加感受野。首先,最简单不损失解析度的方法就是不使用降采样(汗!这不是废话吗),即使用non-strided的池化代替步长为2的池化过程,然后加倍接下来卷积层的dilation。但是这样会带来很巨大的计算量,空洞卷积也会在优化过程的前后减慢模型。另一种方法就是利用合理的上采样,主要用于自动编码机的结构之中,这种结构就很适合用于实时的操作。上采样的过程要as lean as possibile,为了达到实时性并且防止过拟合,同时也不能太lean,否则会出现欠拟合。
前辈的文章,关于扩大感受野的方法有很多,比如空洞卷积,SPP(Spatial pyramin pooling)空间金字塔池化。本文借鉴了SPP,用它来提高感受野。与其它方法不同,本文把来自不同层提取的特征在上采样之前合并,这样对于数据少,且目标大的情况十分有效。文章提出的方法和那些基于ImageNet预训练的模型类似。使用lateral connections代替空洞卷积,能使速度提高4倍。

The proposed segmentation method

提出的方法假设了以下需求。该模型应基于一个预先训练好的ImageNet编码器,以便从迁移学习的正则化中获益。解码器应恢复已编码特征的分辨率,以便预测保留细节。为了保持实时处理速度,上采样过程必须尽可能简单。梯度流应在整个网络中推广,以支持随机初始化开始的训练导致的异常。
编码器作者选用了RseNet-18 和 MobileNet V2,解码器作者选用的残差结构构成的一个上采样结构。
残差结构是这样的【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】_第1张图片
利用SPP block 来提高感受野。
这个模型的decoder和encoder 并不是对称的,encoder中每一个卷积组中有多个卷积层,而decoder中每一个upsampling组中只有1个卷积层。在进行下采样的过程中,每经过一次下采样,维度就会上升一次,所以在lateral connections的过程中可以使用1*1卷积来调节维度的变化。
【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】_第2张图片

交错金字塔融合模型(Interleaved pyramid fusion model)

虽然使用小的模型能够提升计算速度,但是不能够有足够的感受野来适用于大场景。此外,共享参数可以使用公共参数集识别不同大小的对象,这可能会降低对模型容量的需求。为了加强横向连接和改善整个编码器的梯度流,我们将来自不同编码器相邻级别的特征张量连接起来(我们可以这样做,因为它们具有相同的空间分辨率)。这个连接被指定为绿色的圆圈。拼接后,将交织的编码器特征通过11个红色方块指定的卷积投影到解码器特征空间。解码器(蓝色)以与单尺度模型相同的方式工作,但是现在我们为图像金字塔的每一层都增加了一个额外的上采样模块。

【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】_第3张图片

试验

试验结果在下方的表格中:
【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】_第4张图片

结论

实时性是人工智能交通系统应用的语义分割模型的一个重要特征。该领域以前的大多数工作涉及从零开始训练的自定义卷积编码器,以及没有横向跳接的解码器。然而,我们认为,一个更好的速度精度的权衡是与i)紧凑的编码器设计的竞争力的ImageNet的表现和ii)轻量级解码器横向跳连接。作者提出了一种新的交错金字塔融合方案,能够进一步改善接近相机的大型物体的结果。我们为基于ResNet-18和MobileNetv2的模型提供了城市景观和CamVid数据集的预测精度和处理时间的详细分析。我们的Cityscapes测试提交通过在GTX1080Ti上以39.9 Hz处理1024 2048张图像,达到了75.5%的mIoU。据我们所知,这个结果比以前所有针对实时应用的方法都要好。

【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】_第5张图片
【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】_第6张图片

你可能感兴趣的:(论文笔记)