第四章 深层神经网络

1.深层神经网络

        到目前为止我们熟悉了logistic回归、单隐藏层神经网络、前向和后向传播、向量化以及为什么随机初始化比较重要。现在要把这些理念结合起来构成深度神经网络模型。

第四章 深层神经网络_第1张图片
图4.1 logistic回归、单隐藏层双层神经网络、双隐藏层三层神经网络、五隐藏层六层神经网络    

        如图4.1,logistic回归可以看成是单层神经网络,层数是指隐藏层加输出层,浅层和深层只是一个程度问题。对于具体问题,一开始我们并不能准确预测需要多少层神经网络,可以先从logistic回归开始,逐渐增加层数,找到合适层数的神经网络。

第四章 深层神经网络_第2张图片
图4.2 深层神经网络标记方式      

        如图4.2,我们用大写L表示层数如L=4,小写l表示某一层,表示某一层单元数如=3,表示第l层激活函数如=(),类似表示还有,。

第四章 深层神经网络_第3张图片
图4.3 深层神经网络前向传播

如图4.3,前向过程为

=x+,=(),

=+,=()

...

=+,=(),

x可以表示为,则=+,=()。

向量化过程为

=+,=(),

=+,=()

...

=+,

==()。

3.核对矩阵的维数

        实现深度神经网络的时候,防止代码出错,我们应该用纸笔过一遍算法中矩阵维数。

第四章 深层神经网络_第4张图片
图4.4 各步骤矩阵维数

4.为什么要使用深层网络

        深度网络可以解决很多问题,神经网络不要很大,但是要有深度,即要有比较多的隐藏层。

第四章 深层神经网络_第5张图片
图4.5 神经网络的直觉解释过程      

        如图4.5,假设这是人脸识别过程,根据直觉,我们认为第1层识别边缘,第2层利用上一层的边缘结合成各个部位,第三层利用上一层的部位结合成人脸,再比如音频识别也类似,从简单到复杂一步步识别。前面的层识别一些低层次的特征,到后面的层就能结合前面的特征去探测更加复杂的东西。从而需要神经网络需要很多层,即深层网络。这些灵感来源是人类大脑,大脑识别也是从简单开始,然后再结合到整体。

第四章 深层神经网络_第6张图片
图4.6 异或运算

        如图4.6,计算y=XOR XOR ... XOR ,使用多层计算(图左),很少的隐藏单元计算出y。但使用单层计算(图右),需要指数级更多的隐藏单元,因为可能有种情况。即深层层计算更容易计算出y。

        其实深度学习只不过就是多隐藏层神经网络学习

5.搭建深层神经网络块

        前面已经看到了正向反向传播的基础组成部分,他们也是深度神经网络的重要组成部分。

第四章 深层神经网络_第7张图片
图4.7 深层神经网络

        如图4.7,输入(即x),计算出,缓存,,,供反向传播使用,这个过程不断循环,直到计算出,缓存,,,供反向传播使用,然后进入反向传播。

6.前向和反向传播

        构建深度神经网络的基本模块,每一层都有前向传播步骤和相对的后向传播步骤。接下来看看具体传播步骤。

第四章 深层神经网络_第8张图片
图4.8 某一层前向传播过程及向量化
第四章 深层神经网络_第9张图片
图4.9 某一层后向传播过程及向量化      

7.参数和超参数

        想要你的深度神经网络起很好的效果,还要规划好参数以及超参数。神经网络模型中的W和b是参数,学习率∝、梯度下降循环次数、隐藏层数L、隐藏单元数(,)、激活函数等这些属于超参数。超参数需要人为设定,超参数实际上决定着参数W和b的值。

        还有其他超参数比如momentum、mini batch大小、正则化参数等,这些稍后会讲。

第四章 深层神经网络_第10张图片
图4.10 通过经验获取最佳超参数      

        如图4.10,设置超参数需要不断尝试,根据成本函数值变化去调整超参数。

8.深度学习和大脑有什么关系

        一句话,关系不大,深度学习或者其他学科只是受大脑神经元启发。

你可能感兴趣的:(第四章 深层神经网络)