深度学习 卷积类型总结

搬运自:卷积综述

卷积综述

    • 经典卷积系列
    • 卷积变体系列
    • 原始卷积
    • 分组卷积
    • 转置卷积
    • 1 × 1 1 \times 1 1×1卷积
    • Astrous Convolution
    • 深度可分离卷积
    • DeformableConv
    • Inception Block
    • 参考

经典卷积系列

  • 原始卷积
  • 分组卷积
  • 转置卷积
  • 1 × 1 1 \times 1 1×1 卷积
  • 空洞卷积
  • 深度可分离卷积
  • 可变性卷积
  • 空间可分离卷积
  • 图卷积
  • 植入块

卷积变体系列

  • 非对称卷积
  • 八度卷积
  • 异构卷积
  • 条件参数化卷积
  • 动态卷积
  • 幻影卷积
  • 自校正卷积
  • 逐深度过参数化卷积
  • 分离注意力模块
  • 内卷

原始卷积

原始卷积参考

深度学习 卷积类型总结_第1张图片

  1. 稀疏连接
    深度学习 卷积类型总结_第2张图片

  2. 权值共享
    深度学习 卷积类型总结_第3张图片

  3. 平移不变性

    当图像中的目标发生偏移时网络仍然能够输出同源图像一致的结果。当图像中的目标发生位置偏移时其输出结果应该保持一致。

  4. 平移等变形

    CNNs中的平移等变形指的是当输入发生偏移时网络的输出结果也应该发生相应的偏移。这种特性比较使用与目标检测和语义分割等任务。CNNs中卷积操作的参数共享使得它对平移操作具有等变性,而一些池化操作对平移有近似不变性。

分组卷积

AlexNet

深度学习 卷积类型总结_第4张图片

优点:

  1. 降低参数量为原来的1/g,其中g为分组数
  2. 提高训练效率
  3. 提高泛化性能

原始的分组卷积中,不同的通道特征会被分到不同的组里面,知道网络的末端才将其融合,这样会导致中间过程缺乏信息的交互(上图所示)。为解决这个问题,ShuffleNet结合了逐点分组卷积核通道混洗来实现高效轻量化的移动端网络设计。
深度学习 卷积类型总结_第5张图片

深度学习 卷积类型总结_第6张图片
深度学习 卷积类型总结_第7张图片

转置卷积

《A guide to convolution arithmetic for deeplearning》

转置卷积与后续的Astrous Convolution需要区分。转置卷积与原卷积相比,是一种一对多的映射关系,即输入矩阵中的一个值映射到输出矩阵的中的 k × k k \times k k×k个值。一般应用再发编解码结构中的解码器部分或者DCGAN中的生成器部分。
深度学习 卷积类型总结_第8张图片
转置卷积具有以下特点:

  1. 特征上采样:利用转置卷积,可以引入参数让网络自动学习卷积核的权重以更好地回复空间分辨率。一般来说,利用转置卷积来替代常规的上采样操作(最近邻插值,双线性插值)。
  2. 特征可视化:利用转置卷积可以对特征图进行可视化,便于理解特征图输出的是什么。

1 × 1 1 \times 1 1×1卷积

Network In Network

1 × 1 1 \times 1 1×1卷积目的是用于增强模型对特定感受野下局部区域的判断能力。
深度学习 卷积类型总结_第9张图片

能够增强特征表达能力(1×1卷积本质上也是一个带参数的滤波器,在不改变特征图本身尺寸的情况下,能够增加网络深度。通过在卷积后通过非线性激活函数可以有效的增强网络的表达能力),升维和降维(1×1卷积可以通过增加或减少滤波器的数量来实现升维或降维的目的。与全连接层不同,由于卷积是基于权值共享,因此能够有效的降低网络的参数量和计算量。另一方面,降低维度可以认为是通过减少冗余的特征图来降低模型中间层权重的稀疏性,从而得到一个更加紧凑的网络结构),跨通道的信息交互(类似于多层感知机,1×1卷积本质上就是多个特征图之间的线性组合。因此,通过1×1卷积操作可以轻松实现跨通道的信息交互和整合)。

Astrous Convolution

Multi-Scale Context Aggregation by Dilated Convolutions
讲解

深度学习 卷积类型总结_第10张图片

空洞卷积,也称为扩张卷积(Dilated Convolution),最早是针对语义分割任务所提出来的。由于语义分割是一种像素级的分类,经过编码器所提取出的高级特征图最终需要上采样到原始输入特征图的空间分辨率。因此,为了限制网络整体的计算效率,通常会采用池化和插值等上/下采样操作,但这对语义分割这种稠密预测任务来说是非常致命的,主要体现在以下三方面:

  • 不可学习:由于上采样操作(如双线性插值法)是固定的所以并不能重建回原来的信息。
  • 损失空间信息:引入池化操作不可避免的会导致内部数据结构丢失,导致空间细节信息严重丢失。
  • 丢失小目标:经过N次池化,原则上小于 2 N 2^N 2N个像素点的目标信息将不可重建。
  • 引入棋盘效应

深度学习 卷积类型总结_第11张图片

空洞卷积具有一下特性:

  • 增大感受野:这个不多说了
  • 表征多尺度信息:利用不同“空洞率”的卷积,捕获到多尺度上下文语义信息。

深度可分离卷积

代码
详解
Xception: Deep Learning with Depthwise Separable Convolutions

深度可分离卷积,由深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)两部分组成,后也被MobileNet[13]等著名网络大规模应用。标准的卷积过程中对应图像区域中的所有通道均被同时考虑,而深度可分离卷积打破了这层瓶颈,将通道和空间区域分开考虑,对不同的输入通道采取不同的卷积核进行卷积,它将普通的卷积操作分解为两个过程,目的是希望能用较少的参数学习更丰富的特征表示。

深度学习 卷积类型总结_第12张图片

深度学习 卷积类型总结_第13张图片

DeformableConv

Deformable Convolutional Networks
讲解

在计算机视觉领域,同一物体在不同场景,角度中未知的几何变换是任务的一大挑战,通常来说要么通过充足的数据增强,扩充足够多的样本去增强模型适应尺度变换的能力,要么设置一些针对几何变换不变的特征或者算法,比如SIFT或者滑动窗口等。然而传统CNNs固定的几何结构无法对未知的物体形变进行有效建模,因此可变形卷积的提出便是用于解决此问题。

深度学习 卷积类型总结_第14张图片

Inception Block

Going deeper with convolutions

深度学习 卷积类型总结_第15张图片

  • Inception v1:为了进一步地压缩网络的参数量和计算量,作者在原先的Inception块中大量的引入了1×1卷积,从而减小网络的整体规模。

  • Inception v2:主要思想便是提出了Batch Normalization,通过减少内部协变量偏移有效的加速了深度网络的训练。此外,借鉴VGG-Net[19]的思想,v2将v1中的5×5卷积用两个3×3卷积进行替换,在保证获得同等感受野的情况下,进一步的降低网络的参数量和计算量。

  • Inception v3:主要借鉴了空间可分离卷积的思想,将原本k×k的卷积核拆分成1×k和k×1的一维卷积,一方面可以有效的加速网络的运算,另一方面多余的计算资源可用于增加网络的深度,提高非线性映射的能力。

  • Inception v4:借鉴了ResNet[22]的思想,引入了Skip Connection,不仅可以极大地加速网络的训练,同时也能够显著的提高网络性能。

参考

[1] https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
[2] https://arxiv.org/abs/1611.05431
[3] https://arxiv.org/abs/1707.01083
[4] https://arxiv.org/abs/1603.07285
[5] https://distill.pub/2016/deconv-checkerboard/
[6] https://arxiv.org/abs/1311.2901
[7] https://arxiv.org/abs/1312.4400
[8] https://arxiv.org/abs/1409.4842
[9] https://arxiv.org/abs/1512.03385
[10] https://arxiv.org/abs/1511.07122
[11] https://arxiv.org/abs/1702.08502
[12] https://arxiv.org/abs/1610.02357
[13] https://arxiv.org/abs/1704.04861
[14] https://arxiv.org/abs/1703.06211
[15] https://arxiv.org/abs/1811.11168
[16] https://arxiv.org/abs/1609.02907
[17] https://arxiv.org/abs/1409.4842
[18] http://arxiv.org/abs/1502.03167
[19] https://arxiv.org/abs/1409.1556
[20] http://arxiv.org/abs/1512.00567
[21] http://arxiv.org/abs/1602.07261
[22] https://arxiv.org/abs/1512.03385
[23] https://arxiv.org/abs/1908.03930
[24] https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2103.13425.pdf
[25] https://arxiv.org/abs/1904.05049
[26] Scale-space theory in computer vision
[27] https://arxiv.org/abs/1903.04120
[28] https://arxiv.org/pdf/1904.04971
[29] https://arxiv.org/abs/1912.03458
[30] https://arxiv.org/abs/1911.11907
[31] https://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Improving_Convolutional_Networks_With_Self-Calibrated_Convolutions_CVPR_2020_paper.pdf
[32] https://arxiv.org/pdf/2006.12030
[33] https://arxiv.org/abs/2004.08955
[34] https://arxiv.org/abs/2103.06255

你可能感兴趣的:(深度学习,pytorch,神经网络)