【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】

【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】_第1张图片

一、这是google的一篇探索的文章,探讨decoder结构的一篇文章

二、主要贡献点

     1、 探讨了不同的几种decoder的优劣,提出自己的上采样方案

     2、 提出针对上采样的residual connection

     3、 横向多任务对比各种不同方案

三、不同结构decoder的对比

Transposed Convolution:这个也是我们常说的“反卷积” “上采样卷积”,但是要注意这并不是卷积的“反操作”,而是一种类似普通上采样的操作。具体过程分为两步:1、根据放大倍数,填0;2、普通卷积操作。下面这张图非常清晰的显示了,整个过程,3x3的反卷积,总体stride=2.从结构上谈这个模块的缺点的话,我认为主要是输出map的每个pixel的来源不平衡,有的来源2个,有的4个,有的只有1个。3x3的卷积核能否应对h,w较大时,产生一个较好的soomth系数,对于feature map的每个区域都适用?

                                    【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】_第2张图片

Decomposed Transposed Convolution:这个如果熟悉inception的人,其实很好理解,把3x3的卷积拆成1x3,和3x1,这样参数就少了,那么整个操作流程就是:先竖着填0,卷积,横着填0,卷积。这是第一种的严格子集

                              【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】_第3张图片

Separable Transposed Convolution : 这个就是分离卷积,先通道,在1x1,依然是减少参数。这是第一种的严格子集

Depth To Space :可以搜下pixel shuffle,基本上就是这个意思。这个会带入“对齐问题”,因为同一组feature maps,虽然不同通道,但是计算来源都是一样的。The drawback of this approach is that it introduces alignment artifacts.为什么呢?我没办法给出一个理论上的解释。有没有人解释下

                                 【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】_第4张图片

Bilinear Upsampling :增加显存的同时,后续的卷积也会需要更多的操作。

Bilinear additive upsampling :借鉴 “depth to space”,不同的在于,上采样后,这里直接用加法了,输出的feature map,可以发现,每个pixel来源都是平衡的。

【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】_第5张图片

四、上采样residual

     用作者的Bilinear additive upsampling + conv(通道增加4倍)输出的为X',在把原始输入经过普通的bilinear upsample得到 X'',加起来就是了。

     下面这个图的skip,就是我们Unet常用的那种线,这也基本上证明了,这个skip是有效的,但是作用不是特别大。

你可能感兴趣的:(机器学习,深度学习,计算机视觉)