吴教授的CNN课堂：基础篇

下篇传送门：
吴教授的CNN课堂：进阶 | 从LeNet到残差网络(ResNet)和Inception Net

等了一个月，吴教授的Deeplearning.ai的第四部分，也就是关于卷积神经网络(Convolutional Neural Network,简写CNN)的课。

作为吴教授的忠实门徒(自封)，除了在课堂上受到吴教授秀恩爱暴击外，当然也要好好做笔记。虽然之前也有过一些CNN基础，但这次收益还是挺多的。

CNN目前主要用于？

CNN目前主要用于CV领域，也就是计算机视觉领域。

很多当前最先进的计算机视觉方面的应用，如图片识别，物体检测，神经风格转换等等，都大量使用到了CNN。

而且不光是CV领域，很多CNN在CV领域应用的很多技巧，其他领域也可以从其中借鉴到很多，如自然语言处理。

为什么要用CNN

首先，假如我们要进行一个图像识别任务？这里就不用已经都快被玩烂了的的MNIST，用吴教授课上的SIGNS数据集(包含了用手势表示的从0到5的图片)。目标任务就是，给一个手势，识别出代表数字几。

如果是上过之前吴教授机器学习的同学的话，那么可能会问，为什么要用CNN呢？

何不直接像机器学习课里面一样，将图片拍扁(flatten)，也就是直接将(高 x 宽 x 通道(如RGB))的图片展成一个一维向量呢。如SIGNS，本来是64x64x3的图片，我们将它拍成1x12288的向量。

之后直接输入全连接网络(即一般我们认为的神经网络)，中间加点隐层，最后一层用softmax压一下直接输出结果就好了。

我们可以这样设计网络结构，第一层12288个单元，然后中间三个隐层，分别是1028个单元、256个单元、64个单元，最后一层6个单元，也就是我们的分类数。

搭建好网络后，然后训练。这样子确实也可以得到还过得去的结果，大概70~80%。但是相信大家也发现了，这样子搭建的网络需要很多很多参数，如这个例子里面

也就是大约一千三百万个参数。

而这个例子还只是很小的图片，因为只有64x64大小，而现在随意用手机拍张照片就比这大很多。处理这些图片时，用全连接网络搭建出来的网络的参数个数，将会是一个天文数字，不光优化困难，而且性能也不怎么样。

而这时候，就是CNN大展神威的时候了。只需要多少参数呢？之后再揭晓揭晓。

CNN基础：卷积层

卷积 Convolution

CNN网络最主要的计算部分就是首字母C，卷积(Convolutional)。

如下图，这里的一次卷积运算指的是，当我们有一个过滤器(filter)，即下图移动的方块，将这个方块对应要处理的输入数据的一部分，然后位置一一对应相乘，然后把结果再相加得到一个数。

一个过滤器对一张图片进行卷积运算时，往往要进行多次卷积运算，对一部分进行计算完之后，然后移动一点距离再计算，继续移动，计算... 直到处理完整张图片。

为什么叫做过滤器呢（也有叫做kernel(核)的）？

因为我们可以把每个过滤器，当做是设定了一定条件的特征检测器，把不属于检测条件的都过滤掉。只有当前卷积的区域符合这个过滤器设置的条件时，卷积计算结果才会得到一个比较大的数。

举个栗子，如用于检测垂直和水平边线的过滤器。

可以试着自己计算一下。如下图，如果用灰度表示的话，黑的地方是255，白的地方是0。用上面的Gx来卷积下面这张图的话，就会在中间黑白边界获得比较大的值。

而CNN中会有很多个过滤器，每个过滤器对图片进行卷积后，会得到下一个结果的一个通道。CNN厉害的地方在于，过滤器的特征并不是人为设定的，而是通过大量图片自己训练出来的。

这样也就增加了它的灵活性，而且因为视觉底层特征的兼容特性，因此也保证了迁移学习的可能。

步长(Stride)与填充(Padding)

上面说了卷积计算，但还有一些小的细节没提。

如果用(f, f)的过滤器来卷积一张$(h, w)$大小的图片，每次移动一个像素的话，那么得出的结果就是(h-f+1, w-f+1)的输出结果。f是过滤器大小，h和w分别是图片的高宽。

如果每次不止移动一个像素，而是两个像素，或者是s个像素会怎么样呢。

那么结果就会变为

这个s被称为步长。

但是如果每次这样子进行卷积的话，会出现一个问题。只要是$f$和$s$的值比1要大的话，那么每次卷积之后结果的长宽，要比卷积前小一些。

因为这样子的卷积，实际上每次都丢弃了一些图片边缘的信息。一直这样卷积的话，一旦卷积层过多，就会有很多信息丢失。为了防止这种情况的发生，我们就需要对原来的图片四周进行填充(padding)。

一般都会用“0”值来填充，填充1就代表对周围填充一圈，如上图。填充2就填充两圈，填充为p就是p圈，长宽各增加2p。

有了填充之后，每次卷积后的大小会变为

此时假设卷积后高不变

那么我们可以获得

假设s步长为1，那么

也就是如果过滤器的高h=5的话，那么为了保持输出高宽不变，那么就需要p=2。

上面这种保持卷积前后高宽不变的填充方式叫做"Same(相同)填充"。

分数情况

之后来讨论一下分数情况吧。

万一f是4或者6这样的数呢，那么得到的p岂不是分数，怎么填充。答案是，那f就不要取偶数嘛。这就是为什么一般默认的过滤器大小都是5、7、11这样的单数。

好的，解决了填充的情况，那么如果输出的

是分数怎么办。如h=6,f=3,p=0,s=2的情况下，按照公式计算会得到2.5。一般的处理是，只取整数部分。

而这种p=0，然后结果取整数部分的处理方式，叫做"Valid(有效)填充"。

CNN基础：池化(Pooling)层

除了上面的卷积层，CNN里面还有一个很重要的部分，池化层。

一般会跟在卷积层之后，主要用到的Pooling层主要由有Max Pooling和Average Pooling, 也就是最大池化和平均池化。

其实概念很简单，最大池化就如下图。假设有一个2x2的窗口，每次移动步长也为2，每次对窗口里的数取最大值，然后输出。

同样的平均池化，则就把取最大值这个操作换成取平均值就行了。

除了上面两种池化方式，当然还有一些其他的池化方法，如k-Max Pooling之类的，但是应用很少。在最大和平均两个里面，也是最大池化比较常用。

池化层输出大小的转换也和卷积层比较类似，用

来计算，一般池化层不用填充。而且池化层没有要需要训练的参数。

CNN基础：组合

有了卷积层和池化层两大部件之后，就只剩下组合了。下图是吴教授手绘LeNet-5网络。

结构很简单大概是这样子Input -> Conv1 -> Pool1 -> Conv2 -> Pool2 -> (Flatten) -> FC3 -> FC4 -> Output。

Conv是卷积层，Pool是池化层，FC指的是全连接网络层(Full-Connected)。其中Flatten指的是，因为卷积网络输出的数据形状(3维)，和紧接着的全连接网络的输入形状(1维)不吻合，所以需要进行一些处理。

就是之前在直接用全连接网络提到的，把卷积网络的输出拍扁(flatten)，把三维的拍成一维，之后再输入全连接网络。

建议大家可以按照前面提到的形状变换公式，还有吴教授的手绘图，亲自把LeNet-5过一遍，对之后编程CNN很有帮助的。

关于前面的参数个数的问题，用上面这个LeNet-5来处理的话

也就是大概114万。

一下子就缩小了一个数量级，当然对于越大的图片这个差还会更加大。

结尾

这就是吴教授CNN课堂的第一周上的内容了。这次在通道这个概念有了很多新的看法。

如果想要自己修的话，直接Coursera Deeplearning ai就能搜索到课程。

Coursera小技巧，点击注册，不想付钱的话，点左下角的那个小小的旁听就好了。之后想拿证的时候再充值。

习题很简单，这里是我的练习解答，如有困难可以参考。 repo

吴教授的CNN课堂：基础篇 | 卷积和池化