Rethinking BiSeNet For Real-time Semantic Segmentation

Rethinking BiSeNet For Real-time Semantic Segmentation

摘要

BiSeNet已经被证明是一种流行的实时分割的双流网络。然而,其增加额外路径来编码空间信息的原理是耗时的,并且从预训练的任务(例如图像分类)中借用的骨干网可能由于特定任务设计的不足而不能有效地用于图像分割。为此,提出Short-Term Dense Concatenatenetwork(STDC Network)。具体地说,我们逐步降低了特征图的维数,并将特征图的聚合用于图像表示,构成了STDC网络的基本模块。在解码器中,我们提出了一个Detail Aggregation module细节聚合模块,将学习的空间信息以单流的方式整合到低层。最后,融合低层特征和深层特征对最终的分割结果进行预测。

引言

DFANet [18] and BiSeNetV1把轻量化网络作为骨干网,由于特定任务设计的不足,这些从图像分类任务中引用来的轻量化网络可能不能很好地解决图像分割问题。另一种常用提高推理速度方法是限制输入图像大小,但容易忽略边界和小对象周围的详细外观,为此,bisenet把低层细节和高层语义相结合得到多分支网络,但是增加一个额外路径获取低层特征非常耗时,辅助路径往往缺乏底层信息引导。
our,STDC模块由多个感受野特征构成且参数量少----将多个连续的层的响应特征进行拼接操作,为了加速,逐步减小卷积核的大小。通过U型结构构成STDC网络。解码端,细节引导模块引导低层细节,首先,用 Detail Aggregation module细节聚合模块得到细节GT,然后,用损失函数优化细节信息。最后将来自低层的细节信息和来自深层的语义信息进行融合,预测结果。
贡献STDC模块, Detail Aggregation模块

相关工作

实时语义分割,两类主流方法实现高效分割,1,lightweight backbone. DFANet,DFNet;2,multi-branch architecture. ICNet,BiSeNetV1,BiSeNetV2

Encoding Network

STDC模块

Rethinking BiSeNet For Real-time Semantic Segmentation_第1张图片 ||Rethinking BiSeNet For Real-time Semantic Segmentation_第2张图片

  • block1卷积核大小1x1,其余为3X3.。
  • 给定模块输出通道为N,则第i层通道为 N / 2 i N/ 2^{i} N/2i,(除了最后一个block和之前一个block相同)。
  • 分类任务多在,高/深层用更多的通道数;分割任务,更关注可扩展的感受野以及多尺度信息,故,低层需足够的通道来编码更多细粒度信息,而接受野较大的高层则更注重高层次的信息归纳,设置与低层相同的通道可能会造成信息冗余—低层多通道,高层少通道数。
  • 仅在block2 进行下采样。
  • 对各个block的输出进行concat操作,该操作之前首先用3x3的平均池化下采样为相同大小。
    优点
  • 借用几何级数逐渐减小卷积核大小,显著降低计算复杂度
  • STDC模块的最终输出由所有block输出拼接而成,保留了多个感受野和多尺度信息。

网络架构

Rethinking BiSeNet For Real-time Semantic Segmentation_第3张图片

  • 第1-5阶段以步长为2进行下采样
  • 阶段1,2视为特征提取的低层,仅使用一个卷积块
  • 在3,4,5阶段中,每个阶段的第一个STDC模块以步长为2对空间分辨率进行下采样,每个阶段的后续STDC模块保持空间分辨率不变
    Rethinking BiSeNet For Real-time Semantic Segmentation_第4张图片

Decoder

分割结构

  • 使用预先训的STDC网络作为编码器骨干网,并采用BiSeNet v1的上下文路径context path对上下文信息进行编码。
  • 3-5阶段生成下采样率为1/8、1/16、1/32的特征图。用全局平均池化来为全局上下文信息提供更大的感受野
  • 在编码阶段,采用U型结构对来自全局特征的特征进行上采样,并与后两个阶段(阶段4和阶段5)的特征相结融合:即同bisenet v1 :使用ARM注意力细化模块对每两个阶段的组合特征进行细化。对于最终的预测,用BiSeNet[ v1中的FFM特征融合模块对来自编码端第三阶段的1/8下采样特征和来自解码端对应特征进行融合。
  • 分割头:3×3 Conv-BN-RELU,然后1×1,以获得对应类别数的输出N
  • 其他:cross-entry loss ,Online Hard Example Mining
    融合思路:编码端含有更多的细节信息,解码端融合了丰富上下文信息
    下图左图为BiSeNet v1结构,右图为该论文结构
    Rethinking BiSeNet For Real-time Semantic Segmentation_第5张图片 || Rethinking BiSeNet For Real-time Semantic Segmentation_第6张图片

Detail Guidance of Low-level Features

Rethinking BiSeNet For Real-time Semantic Segmentation_第7张图片||Rethinking BiSeNet For Real-time Semantic Segmentation_第8张图片

  • 对BiSeNet的spatial path进行可视化b,发现与骨干网中同分辨率特征(stage3特征c)相比,spatial path中的特征有更多的细节信息-------------故,提出Detail Guidance module引导低层以单流方式学习空间信息------------结果如d所示,可有更多细节

  • 将细节预测任务建模为二值分割问题

    • 用拉普拉斯算子从分割GT中产生细节GT;利用细节头在stage3产生细节特征图
    • 用细节GT作为细节特征图的引导,引导低层学习空间细节

    细节GT产生

  • 首先用拉普拉斯算子(如e所示)产生不同步长下的特征图,以获得多尺度细节信息。

  • 将特征图上采样为相同大小后经过1x1卷积进行融合

  • 最后,阈值为0.1,将预测的细节转换为最终的二值细节GT
    细节损失

  • 细节预测是一个类不平衡问题,dice loss计算预测特征和GT重合部分,且其对前/背景像素较敏感,故可缓解类不平衡问题

  • 函数:二值交叉熵损失和dice loss
    Rethinking BiSeNet For Real-time Semantic Segmentation_第9张图片

实验

消融实验
Rethinking BiSeNet For Real-time Semantic Segmentation_第10张图片
Rethinking BiSeNet For Real-time Semantic Segmentation_第11张图片
cityscapes结果
测试时:将图像调整为固定大小的512×1024或768×1536进行推理,然后将结果向上采样到1024×2048
50/75表示输入图像分辨率大小
Rethinking BiSeNet For Real-time Semantic Segmentation_第12张图片
#######

-- STDC模块:浅层多通道,深层少通道,特征concat以融合
-- STDC网络:堆叠STDC模块构成
-- 用于分割:舍弃bisenet v1细节分支,由STDC的stage3配合detail head实现,继续沿用bisenet中的ARF、FFM模块
-----综上:STDC网络不错,细节头也不错

你可能感兴趣的:(轻量化分割,计算机视觉)