论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型

BiSeNetV3

论文:Rethinking bisenet for real-time semantic segmentation

地址:https://paperswithcode.com/paper/rethinking-bisenet-for-real-time-semantic
论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型_第1张图片

论文阅读与模型介绍

  BiSeNetV3主要是在之前两个版本的BiSeNet模型的基础上进行思考与优化,考虑旧有模型的两个不足:1)主干网络简单借鉴分类任务缺乏对分割任务的针对性;2)多加一条额外通路用于编码空间信息增加了计算量。为此论文的解决方案是:1)提出一个短时密集连接网络STDCNet作为主干逐步对特征图进行降维聚合;2)提出一个细节聚合模块,以单一流的方式将空间信息的学习聚合到浅层网络中。

  模型整体架构如下图所示,主干网络为STDCNet,Stage3、4、5输出的特征图下采样率分别为8、16、32,然后对大感受野的特征图应用全局平均池化,并应用ARM模块将两个不同阶段的特征图融合后,再与来自Stage3的特征图进行融合,输出8x下采样的特征图,最终分割头使用3×3CBR模块、1×1卷积和一个8x上采样来获得最终分割结果。
论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型_第2张图片

STDCNet短时密集聚合模块

   如下图所示,单个stdc模块由多个CBR Blocks组成,除第一个Block的卷积核尺寸为1×1外,其余均为3×3,给定输入该模块的特征图通道数为N,前三个Block不断将其降为前一个Block的1/2,Block4则保持不变(快速通道降维然后多尺度融合以升维),下图©和下图(b)的区别在于前者在Block2阶段发生了下采样,然后应用3×3平均池化后参与融合。最后总是通过多个不同感受野的特征图concat实现多尺度信息的融合。
论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型_第3张图片

浅层特征位置细节信息引导-Detail Guidance of Low-level Features

  论文发现BiSeNet的空间通路特征(下图(b))和主干网络Stage3的浅层特征相比,前者能够编码更多的角点与边缘位置信息,论文将图像空间细节预测视为一个二类分割任务,首先在分割GT掩码上应用拉普拉斯算子得到Detail Map的GT结果,然后如本文第一幅图(a)所示,在网络的Stage3阶段插入一个细节头来生成细节特征图,然后以拉普拉斯算子处理的结果作为标准去引导浅层网络学习空间位置细节信息,得到如下图(d)所示的特征图(包含更多的空间位置信息)。
论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型_第4张图片

  具体地,模型从语义分割GT掩码生成Detail GT的过程如本文第一幅图©所示,这个过程由一个2d拉普拉斯和函数与一个参数可训练的1×1卷积组成,使用图本文第一幅图(e)所示的拉普拉斯算子来产生多尺度的细节特征图,然后通过1×1卷积进行动态权重融合,最后使用0.1的阈值来讲预测结果转化为最终的二类分割GT。

实验结果

定量(Cityscapes)

论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型_第5张图片

定性

论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型_第6张图片


欢迎扫描二维码关注微信公众号 深度学习与数学 ,每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾。
在这里插入图片描述

你可能感兴趣的:(深度学习,语义分割,计算机视觉,计算机视觉,语义分割)