DeeplabV3+学习笔记

DeeplabV3+网络结构

话不多说,先上图:
其主要结构分为两个部分:encoder(编码器)和decoder(解码器)

我们知道,想要解决与对象边界相关的详细信息丢失的问题,我们可以采用空洞卷积、增大感受野的方法来解决;通过应用空洞卷积来提取更密集的特征图,可以缓解这一问题,同样的道理,在Deeplabv3+中,同样引入了空洞卷积,其位于encoder网络中,目的是提取更为有效的特征

Encoder部分

当一张图被传入Encoder中时,首先将其送入一个深度卷积网络层(DCNN),该层是一个深度卷积网络的主干模型,其特点为引入了串行空洞卷积;
DCNN的输出会被传入一个并行的卷积块中,该卷积块由五个部分组成,如下图:
DeeplabV3+学习笔记_第1张图片
过程中存在三个3*3的空洞卷积,其膨胀率各不相同;通过此并行结构,将结果进行堆叠之后,再进行一个1*1的卷积来完成通道数的调整,由此得到一个输出,传入decoder中。(encoder的输出特征图的通道数是256)

Decoder部分

当图片送入Encoder,并经过主干DCNN网络之后的结果分为两部分,一部分如上述过程,被传入并行的空洞卷积块,分别用不同的膨胀率来进行特征提取,另一部分直接传入decoder,经过一个1*1卷积调整通道数后,与来自并行空洞卷积块的输出特征层进行堆叠;**这里需要注意的是,由于由DCNN中间直接传入decoder的特征层长宽比较大,所以这里在来自并行空洞卷积块的输出特征层与直接传入的特征层堆叠之前,首先对空洞卷积的输出层进行了一个上采样,使得其长宽与直接传入的特征层对等,方便完成堆叠;**堆叠之后,再利用一个3*3的卷积块进行调整,最后进行一次上采样,使得最终输出与开始的输入尺寸一致

Deeplabv3的改进

DeeplabV3+学习笔记_第2张图片

特点及优势

1.通过添加一个简单有效的解码器模块来扩展DeepLab-v3,以优化分割结果,尤其是沿着目标边界
2.将深度可分离卷积(参考Xception)应用于ASPP和解码器模块,从而产生用于语义分割的更快和更强的编码器-解码器网络(深度可分离卷积如下图)
DeeplabV3+学习笔记_第3张图片
3.使用了空洞卷积,增大了网络的感受野、减少了特征图像尺寸的损失

参考资料:
https://blog.csdn.net/weixin_43056275/article/details/102970972?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161927972316780269842263%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=161927972316780269842263&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allbaidu_landing_v2~default-4-102970972.first_rank_v2_pc_rank_v29&utm_term=deeplabv3%2B%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84

https://blog.csdn.net/weixin_31669073/article/details/111960544?ops_request_misc=&request_id=&biz_id=102&utm_term=deeplabv3+%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-7-111960544.first_rank_v2_pc_rank_v29

https://blog.csdn.net/weixin_43056275/article/details/102970972

https://www.bilibili.com/video/BV1qJ411S7Pn?p=12

你可能感兴趣的:(DeeplabV3+学习笔记)