一、第三周-浅层神经网络
1.神经网络的表示
一个简单的神经网络是由输入层隐藏层和输出层组成的,隐藏层是除输入层和输出层以外的其他各层。隐藏层不直接接受外界的信号,也不直接向外界发送信号。在训练集中能看到输入层的输入和输出层的输出,但是看不到隐藏层中的数据,这就是所谓的“隐藏层”。
在神经网络中的一些符号标记用【】来表示数据为神经网络中的第几层,其中输入层为【0】,对应的各层中的神经元的激活值如第一层中的第一个神经元的激活值可以表示为,假设第一层有n_1个神经元,则为一个n_1维的列向量。对应的参数可以表示为,向量化表示为。
浅层神经网络示意图:
其中的
,4是隐层神经元的个数,3是输入层神经元的个数;
,和隐藏层的神经元个数相同;
,1是输出层神经元的个数,4是隐层神经元的个数;
,和输出层的神经元个数相同;
在神经网络中,我们以相邻两层为观测对象,前面一层作为输入,后面一层作为输出,两层之间的w参数矩阵大小为(,),b参数的矩阵大小为(1),其中为输出层的神经元数目,为输入层的神经元的个数。
2.计算前向传播中神经网络的输出
除输入层之外每层的计算输出可由下图总结出:
每个神经元都需要对输入做z和a的计算
3.向量化实现
假定在m个训练样本的神经网络中,计算神经网络的输出,用向量化的方法去实现可以避免在程序中使用for循环,提高计算的速度。此处的向量化和前面一周的相似。
Z即使将不同的训练样本的对应的堆叠成一个矩阵,计算同上一周的计算
4.激活函数的选择
常用的四种激活函数:
1.sigmoid:
2.tanh:
3.ReLU(修正线性单元):a=max(0,z)
4.Leaky ReLU:a=max(0.01z,z)
sigmoid函数和tanh函数比较:
隐藏层:tanh函数的表现要好于sigmoid函数,因为tanh取值范围为[−1,+1][−1,+1],输出分布在0值的附近,均值为0,从隐藏层到输出层数据起到了归一化(均值为0)的效果。
输出层:对于二分类任务的输出取值为{0,1}{0,1},故一般会选择sigmoid函数。
然而sigmoid和tanh函数在当|z|很大的时候,梯度会很小,在依据梯度的算法中,更新在后期会变得很慢。在实际应用中,要使|z|尽可能的落在0值附近。
ReLU弥补了前两者的缺陷,当z>0时,梯度始终为1,从而提高神经网络基于梯度算法的运算速度。然而当z<0时,梯度一直为0,但是实际的运用中,该缺陷的影响不是很大。
Leaky ReLU保证在z<0的时候,梯度仍然不为0。
在选择激活函数的时候,如果在不知道该选什么的时候就选择ReLU,当然也没有固定答案,要依据实际问题在交叉验证集合中进行验证分析。
5.神经网络的梯度下降算法
以1中的浅层神经网络为例
下面为该例子的神经网络反向梯度下降公式(左)和其代码向量化(右)
6. 随机初始化
如果在初始时,两个隐藏神经元的参数设置为相同的大小,那么两个隐藏神经元对输出单元的影响也是相同的,通过反向梯度下降去进行计算的时候,会得到同样的梯度大小,所以在经过多次迭代后,两个隐藏层单位仍然是对称的。无论设置多少个隐藏单元,其最终的影响都是相同的,那么多个隐藏神经元就没有了意义。
在初始化的时候,W参数要进行随机初始化,b则不存在对称性的问题它可以设置为0。
即
w = np.random.rand( (2,2) ) * 0.01;
b = np.zero( (2,1) );
将W的值乘以0.01是为了尽可能使得权重W初始化为较小的值,这是因为如果使用sigmoid函数或者tanh函数作为激活函数时,W比较小,则Z=WX+bZ=WX+b所得的值也比较小,处在0的附近,0点区域的附近梯度较大,能够大大提高算法的更新速度。而如果W设置的太大的话,得到的梯度较小,训练过程因此会变得很慢。
ReLU和Leaky ReLU作为激活函数时,不存在这种问题,因为在大于0的时候,梯度均为1。
二、第四周-深层神经网络
所谓深层神经网络即隐藏层的层数比较多的神经网络
1.为什么使用深层神经网络
在人脸识别中,神经网络的第一层从原始图片中提取人脸的轮廓和边缘,每个神经元学习到不同边缘的信息;网络的第二层将第一层学得的边缘信息组合起来,形成人脸的一些局部的特征,例如眼睛、嘴巴等;后面的几层逐步将上一层的特征组合起来,形成人脸的模样。随着神经网络层数的增加,特征也从原来的边缘逐步扩展为人脸的整体,由整体到局部,由简单到复杂。层数越多,那么模型学习的效果也就越精确。
对于语音识别,第一层神经网络可以学习到语言发音的一些音调,后面更深层次的网络可以检测到基本的音素,再到单词信息,逐渐加深可以学到短语、句子。
所以说深层的神经网络可以更好地由简到繁的按照问题的层次解决问题,更加适合人类的思维方式,具有比较清晰的逻辑框架。
2.神经网络中矩阵的维度
在一个层数很多的神经网络中矩阵的维度通常是一个比较容易出错的点。通过前面的总结和推导,可以发现:
3.前向传播和反向传播
符号解释:L表示DNN的总层数,表示第l层包含神经元的个数,表示第l层激活函数的激活值,表示第l层的权重。(输入x记作,输出记作,cache是缓冲区,通常用作参数传递)
(1)前向传播
Input:
Output:,cache()
基本公式:
向量化公式:
(2)反向传播
Input:
Output:
基本公式:
(g/为g的导数,g'公式里打不出来qaq)
向量化公式:
4.参数和超参数
参数:
参数即是我们在过程中想要模型学习到的信息,
超参数:
超参数即为控制参数的输出值的一些网络信息,也就是超参数的改变会导致最终得到的参数的改变。
之前学过的超参包括:
学习速率:α
迭代次数:N
隐藏层的层数:L
每一层的神经元个数:n[1],n[2],⋯
激活函数g(z)的选择