卷积神经网络的复杂度分析

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达e93ab5f5b889b7105680b918ed2f7d43.png

作者 | Michael Yuan@知乎(已授权)
来源 | https://zhuanlan.zhihu.com/p/31575074

编辑丨极市平台

导读

 

在梳理CNN经典模型的过程中,作者理解到其实经典模型演进中的很多创新点都与改善模型计算复杂度紧密相关,因此今天就让我们对卷积神经网络的复杂度分析简单总结一下。

在梳理CNN经典模型的过程中,我理解到其实经典模型演进中的很多创新点都与改善模型计算复杂度紧密相关,因此今天就让我们对卷积神经网络的复杂度分析简单总结一下下。

本文主要关注的是针对模型本身的复杂度分析(其实并不是很复杂啦~)。如果想要进一步评估模型在计算平台上的理论计算性能,则需要了解 Roofline Model 的相关理论,欢迎阅读本文的进阶版: Roofline Model与深度学习模型的性能分析。( 链接:https://zhuanlan.zhihu.com/p/34204282 )
卷积神经网络的复杂度分析_第1张图片 “复杂度分析”其实没有那么复杂啦~



时间复杂度

即模型的运算次数,可用8f7503ffdd4921ef68e712d7eb6189a2.png衡量,也就是浮点运算次数(FLoating-point OPerations)。

1.1 单个卷积层的时间复杂度
  • outside_default.png每个卷积核输出特征图 outside_default.png 的边长

  • outside_default.png每个卷积核 outside_default.png的边长

  • outside_default.png每个卷积核的通道数,也即输入通道数,也即上一层的输出通道数。

  • b577dc78a938d292a9913d7f72ac80da.png本卷积层具有的卷积核个数,也即输出通道数。

  • 可见,每个卷积层的时间复杂度由输出特征图面积 2589eb8af4bffbfa68d694e921c95f74.png、卷积核面4ae58a2d5976d2ffed288436b4e1d54e.png、输入30aa2dc330a19534898b01433bc3fef9.png 和输出通道数2990728db70655395b95ecd2b9a93b2b.png完全决定。

  • 其中,输出特征图尺寸本身又由输入矩阵尺寸75db1496f5f572a0fa910ed51b6ef7e1.png 、卷积核尺寸outside_default.png 、a0776c2c477b7ee9281100f2f271f009.png这四个参数所决定,表示如下:

ce5f6047e608e0b02b8197a72bdeaf2f.png

  • 注1:为了简化表达式中的变量个数,这里统一假设输入和卷积核的形状都是正方形。

  • 注2:严格来讲每层应该还包含 1 个 b2f491b8e47c50ec30e5f8f55c78032f.png参数,这里为了简洁就省略了。

1.2 卷积神经网络整体的时间复杂度

e1c13a42a7d4be37761279b4c869e947.png

  • 2e15c1e8cc8b36b50479f8f20f7a2e9c.png神经网络所具有的卷积层数,也即网络的深度。

  • e7947eddff6bc15e30177ad287f83825.png神经网络第ed915608dfed12ecd7acfa7a8d106fdd.png个卷积层

  •  e3eef695b42434bfb20b70ee6394cf9a.png神经网络第d96f70bbd9c4ef5252e26b61b1429f73.png个卷积层的输出通道数83a5bc435310b9e60aaa2d6af92ea35c.png,也即该层的卷积核个数。

  • 对于第5c46c80f4d1a6c830e1834da4cfcfec3.png个卷积层而言,其输入通道数67de9d2d78d3531dcbadba5378400281.png就是第d1c8f43307ddcb68f3d90ce1068d2b27.png个卷积层的输出通道数。

  • 可见,CNN整体的时间复杂度并不神秘,只是所有卷积层的时间复杂度累加而已。

  • 简而言之,层内连乘,层间累加。

示例:用 Numpy 手动简单实现二维卷积

假设 Stride = 1, Padding = 0, img 和 kernel 都是 np.ndarray.

def conv2d(img, kernel):
    height, width, in_channels = img.shape
    kernel_height, kernel_width, in_channels, out_channels = kernel.shape
    out_height = height - kernel_height + 1
    out_width = width - kernel_width + 1
    feature_maps = np.zeros(shape=(out_height, out_width, out_channels))
    for oc in range(out_channels):              # Iterate out_channels (# of kernels)
        for h in range(out_height):             # Iterate out_height
            for w in range(out_width):          # Iterate out_width
                for ic in range(in_channels):   # Iterate in_channels
                    patch = img[h: h + kernel_height, w: w + kernel_width, ic]
                    feature_maps[h, w, oc] += np.sum(patch * kernel[:, :, ic, oc])

    return feature_maps



空间复杂度

空间复杂度(访存量),严格来讲包括两部分:总参数量 + 各层输出特征图。

  • 参数量:模型所有带参数的层的权重参数总量(即模型体积,下式第一个求和表达式)

  • 特征图:模型在实时运行过程中每层所计算出的输出特征图大小(下式第二个求和表达式)

outside_default.png

  • 总参数量只与卷积核的尺寸 67cdfd0c2b1b68e43434469a44b632dd.png、通道数5f23b8198c170bd322189c34ff8e8127.png、层数f59e5d1b10c59d000eb0b6ed52391ecc.png相关,而与输入数据的大小无关。

  • 输出特征图的空间占用比较容易,就是其空间尺寸47cf692b43bdded326905fc8859ea8b7.png和通道数1d79a20b8c6389caf21497614ea03406.png的连乘。

  • 注:实际上有些层(例如 ReLU)其实是可以通过原位运算完成的,此时就不用统计输出特征图这一项了。



复杂度对模型的影响


  • 时间复杂度决定了模型的训练/预测时间。如果复杂度过高,则会导致模型训练和预测耗费大量时间,既无法快速的验证想法和改善模型,也无法做到快速的预测。

  • 空间复杂度决定了模型的参数数量。由于维度诅咒的限制,模型的参数越多,训练模型所需的数据量就越大,而现实生活中的数据集通常不会太大,这会导致模型的训练更容易过拟合。

  • 当我们需要裁剪模型时,由于卷积核的空间尺寸通常已经很小(3x3),而网络的深度又与模型的表征能力紧密相关,不宜过多削减,因此模型裁剪通常最先下手的地方就是通道数。



Inception 系列模型是如何优化复杂度的

通过五个小例子说明模型的演进过程中是如何优化复杂度的。

4.1  9a43f3adc56340f7ec035db963b0a90c.png 中的 c521f70d4a95c3197f30c05bb2099eb1.png 卷积降维同时优化时间复杂度和空间复杂度
卷积神经网络的复杂度分析_第2张图片 (图像被压缩的惨不忍睹...)
  • InceptionV1 借鉴了 Network in Network 的思想,在一个 Inception Module 中构造了四个并行的不同尺寸的卷积/池化模块(上图左),有效的提升了网络的宽度。但是这么做也造成了网络的时间和空间复杂度的激增。对策就是添加 1 x 1 卷积(上图右红色模块)将输入通道数先降到一个较低的值,再进行真正的卷积。

  • 以 InceptionV1 论文中的 (3b) 模块为例(可以点击上图看超级精美的大图),输入尺寸为00f9849950e23e809b4206ed2497c643.png, 1275248d96dc577cf04e6a8a195535f1.png卷积核 outside_default.png 个,d9be57b7b16ecbd19334333c74935802.png卷积核 outside_default.png 个,2e8304017bd7c6b06ab568669571de93.png卷积核 outside_default.png 个,卷积核一律采用 Same Padding 确保输出不改变尺寸。

  • aa19fb2140530b384edf5943a592e83e.png卷积分支上加入3ddc7e424ef1b1ef3e2be902667ee003.png082c7923d045f600fd64dae272ff472a.png卷积前后的时间复杂度对比如下式:

    04980798014928245884afde82cc69fe.png

  • 同理,在84e7628748ea4161fe1628e432c2db9c.png卷积分支上加入178ca3d6f8dd8f6971b07b1ed3b433f2.pngff93f980506e6813a5b9144d411d0ddf.png卷积前后的时间复杂度对比如下式:

     8ce2821886690c933adff06a88a11287.png

  • 可见,使用31f6e7b7173edf7bba9c7dd4ef6a32d3.png卷积降维可以降低时间复杂度3倍以上。该层完整的运算量可以在论文中查到,为 300 M,即67a47ebf2b27e5a6a7d8100e6c0c8a73.png

  • 另一方面,我们同样可以简单分析一下这一层参数量在使用 1 x 1 卷积前后的变化。可以看到,由于 1 x 1 卷积的添加,3 x 3 和 5 x 5 卷积核的参数量得以降低 4 倍,因此本层的参数量从 1000 K 降低到 300 K 左右。

卷积神经网络的复杂度分析_第3张图片

4.2  0e10b53c9ca9d8be59697409f0e3cabf.png 中使用  3f513b141c095577c82a4a96f8287cb9.png 代替 b8efa669efe403f90ed6d6679785e5a7.png
  • 全连接层可以视为一种特殊的卷积层,其卷积核尺寸 outside_default.png 与输入矩阵尺寸 一模一样。每个卷积核的输出特征图是一个标量点,即 。复杂度分析如下:

    fb74dfd9370c62df0b7a3e60c1456407.png

  • 可见,与真正的卷积层不同,全连接层的空间复杂度与输入数据的尺寸密切相关。因此如果输入图像尺寸越大,模型的体积也就会越大,这显然是不可接受的。例如早期的VGG系列模型,其 90% 的参数都耗费在全连接层上。

  • InceptionV1 中使用的全局平均池化 GAP 改善了这个问题。由于每个卷积核输出的特征图在经过全局平均池化后都会直接精炼成一个标量点,因此全连接层的复杂度不再与输入图像尺寸有关,运算量和参数数量都得以大规模削减。复杂度分析如下:

    011e1605b39a317bf4442bafa91ae6df.png

4.3  ae36e853ce8a862b9618d9c61567ab7d.png 中使用两个 546a5ee55e2d2dc147e620d21c8498ad.png 卷积级联替代 485bb6afafd5d06ad2e11bc5c5c1abcb.png 卷积分支
卷积神经网络的复杂度分析_第4张图片 感受野不变
  • 根据上面提到的二维卷积输入输出尺寸关系公式,可知:对于同一个输入尺寸,单个b1f5e553199c1760e604f703c21e0878.png卷积的输出与两个a485cc597124aa0b4ee98f316e5d8e0b.png卷积级联输出的尺寸完全一样,即感受野相同。

  • 同样根据上面提到的复杂度分析公式,可知:这种替换能够非常有效的降低时间和空间复杂度。我们可以把辛辛苦苦省出来的这些复杂度用来提升模型的深度和宽度,使得我们的模型能够在复杂度不变的前提下,具有更大的容量,爽爽的。

  • 同样以 InceptionV1 里的 (3b) 模块为例,替换前后的261112046e81d6453f5783a2a8dfa22b.png卷积分支复杂度如下:

    b003fa83c83352b02f9061b8b23a2772.png

4.4  ae83c12d0722352bbcf3a3181cc631b9.png 中使用  outside_default.png 与 1d5eb42f0f414c1d754681438a15daf6.png 卷积级联替代  e17e8329c787b70b340144a31b1446ab.png 卷积
卷积神经网络的复杂度分析_第5张图片
  • InceptionV3 中提出了卷积的 Factorization,在确保感受野不变的前提下进一步简化。

  • 复杂度的改善同理可得,不再赘述。

4.5  321cc256e41a892eeb420b41f89230e5.png 中使用  outside_default.png
卷积神经网络的复杂度分析_第6张图片
  • 我们之前讨论的都是标准卷积运算,每个卷积核都对输入的所有通道进行卷积。

  • Xception 模型挑战了这个思维定势,它让每个卷积核只负责输入的某一个通道,这就是所谓的 Depth-wise Separable Convolution。

  • 从输入通道的视角看,标准卷积中每个输入通道都会被所有卷积核蹂躏一遍,而 Xception 中每个输入通道只会被对应的一个卷积核扫描,降低了模型的冗余度。

  • 标准卷积与可分离卷积的时间复杂度对比:可以看到本质上是把连乘转化成为相加。

    卷积神经网络的复杂度分析_第7张图片



总结

通过上面的推导和经典模型的案例分析,我们可以清楚的看到其实很多创新点都是围绕模型复杂度的优化展开的,其基本逻辑就是乘变加。模型的优化换来了更少的运算次数和更少的参数数量,一方面促使我们能够构建更轻更快的模型(例如MobileNet),一方面促使我们能够构建更深更宽的网络(例如Xception),提升模型的容量,打败各种大怪兽,欧耶~

卷积神经网络的复杂度分析_第8张图片 参考论文
  • https://arxiv.org/abs/1412.1710

  • https://arxiv.org/abs/1409.4842

  • https://arxiv.org/abs/1502.03167

  • https://arxiv.org/abs/1512.00567

  • https://arxiv.org/abs/1610.02357

注:本文主要关注的是针对模型本身的复杂度分析。如果想要进一步评估模型在计算平台上的理论计算性能,则需要了解 Roofline Model 的相关理论,欢迎阅读本文的进阶版:  Roofline Model与深度学习模型的性能分析。 (文章链接: https://zhuanlan.zhihu.com/p/34204282 )

如果觉得有用,就请分享到朋友圈吧!

卷积神经网络的复杂度分析_第9张图片

outside_default.png

点个在看 paper不断!

你可能感兴趣的:(卷积,神经网络,算法,网络,python)