CNN介绍

2.1. 基本结构

CNN全名叫卷积神经网络，主要的模型结构有卷积、池化、激活三个组成部分。下面分块来介绍每个部分都做了什么，为什么要这么做。

2.2. 卷积层

卷积层中最重要的概念是卷积核，卷积核可以理解为是一种特征，将输入和卷积核相乘得到的结果就是输入在这个特征上的投影，这个投影可以称之为特征图。特征要怎么理解呢？以图像识别为例，假设有一个特征表示物体的轮廓，将输入的图像和这个特征相乘得到的就是图像的轮廓图。卷积过程如下图所示。

卷积过程

针对图像的卷积过程，一般来说图像形状为(batch_size, height, width, channel)，卷积核的形状为（m,n），这里的m、n对应的维度是其中的高度和宽度，m和n可以相等也可以不等。自然语言处理也可以使用卷积网络，一般来说语言输入的形状为(batch_size, length, embedding_size)，语言一般来说只有一个通道，由于tensorflow的卷积api一般只接受四维的向量，因此需要在末尾扩充一维向量变成(batch_size, length, embedding_size, 1)，这里对应的卷积核形状为（m,embedding_size），embedding_size代表的是词向量大小，是一个整体，一般不会拆开来卷积。m对应的是length也就是句子长度。

还有两个参数比较常见，第一个是stride，就是卷积核前进的步长，同样可以对应高度和宽度上两个步长，如果stride只设置一个数字，那么表示高度和宽度上步长一致。第二个是卷积是否padding，如果padding的话可以保持前后形状一致。

卷积层参数计算：假设卷积核形状为（m，n），共有p个卷积核，那么卷积过程中涉及到的参数量为m×n×p

2.3. 池化层

池化过程

如上图所示就是一个典型的池化过程，常见的池化有最大值池化和平均池化两种，顾名思义就是在池化窗口内计算最大值和平均值作为池化结果。值得一提的是，tensorflow的池化接口参数都是四维的，例如这个窗口的大小为（1，m，n，1），分别对应的是NHWC(batch_size, height, width, channel)四个维度，步长stride也是一样。

池化层有什么作用呢？一般来说至少有一下三个作用：

特征不变形：池化操作是模型更加关注是否存在某些特征而不是特征具体的位置，也就是说模型对于位置的敏感性下降了，换言之也就是说那些需要对位置敏感的任务，比如图片分区不适合使用池化操作。
特征降维：池化相当于在空间范围内做了维度约减，从而使模型可以抽取更加广范围的特征。同时减小了下一层的输入大小，进而减少计算量和参数个数。
在一定程度上防止过拟合，更方便优化。

2.4. 激活层

激活层使用的函数叫做非线性激活函数，这里面有两个关键字，非线性和激活。之所以使用非线性函数是因为如果使用线性函数，那么不管几层的网络也等价于单层的网络，都是线性组合。而这层之所以会被称为激活层的原因是激活函数模仿了人类对神经信号的有选择反应。常见的激活函数有sigmoid，tanh，relu等。

2.5. BN层

BN层不是卷积网络的标配，但因为效果太好，不仅大大加快收敛速度，模型性能也可以好上不少，因此在这里介绍一下。

我们在训练集上训练的模型之所以可以应用于测试集，是因为一个前提假设：训练数据和测试数据独立同分布。BatchNorm的作用简单来说就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。

深层神经网络在进入激活函数前的激活输入值，随着网络深度加深，分布逐渐往激活函数的两端靠近，导致反向传播是梯度消失，因此会出现训练效率越来越低的情况。BN做的事情就是把这个激活输入值转成标准正态分布，这样就可以避免梯度消失的问题。但是这样会造成另一个问题，如果所有的输入都经过标准正态化，那非线性变换带来的对非线性关系的拟合效果就消失了，因此提出BN的作者为了保证非线性的获得，对标准正态化后的输入又进行了scale加上shift操作(y=scale*x+shift)，这是把输入分布变胖变瘦或者左右移动一下，核心是想找到非线性和线性表达的平衡点，作者认为这是BN层效果好最大的原因。这里有一个小小的争议，MIT研究人员在论文How Does Batch Normalizetion Help Optimization认为bn之所以有效不是因为改变了分布。该论文认为bn之所以可以达到1、收敛更快2、对学习率不敏感的效果是因为经过bn之后的loss函数变得比较平滑，论文通过计算loss的一阶导数和二阶导数从侧面证明了这一点。

在实际使用时，我们要告诉batch normlization是在训练还是预测过程。为什么？因为在预测阶段，输入可能只有一个实例，没有办法做标准化，这个时候就可以使用之前记录下来的整体均值和方差来做标准化。

使用tensorflow的bn层有一个很大的坑需要重点关注，在使用 tf.layers.batch_normalization (input, training=is_traing)时，训练阶段可以整个batch一起做归一化处理，在预测阶段（使用之前记录下来的整体均值和方差来做标准化。），这个记录的参数需要更新，但是上面使用的这个层不会自动更新参数。因此在计算梯度前需要with tf.control_dependencies(tf.get_collection(tf.GraphKeys.UPDATE_OPS))来获取最新的数据，否则预测阶段会发现参数一直处于初始状态。