神经网络与深度学习笔记——梯度消失问题

神经网络与深度学习笔记系列一共有五个专题,分别是
第一章使用神经网络识别手写数字——梯度下降算法是什么。主要介绍了神经网络的基础例如感知器激活函数等概念,最主要介绍了梯度下降算法。
第二章反向传播算法如何工作——反向传播算法原理。主要介绍了反向传播算法的工作原理。

第三章改变神经网络的学习方法——代价函数,规范化,过拟合。主要介绍了不同的代价函数,以及规范化等对传统代价函数的改造。

第四章深度神经网络为何难以训练——梯度消失和爆炸。主要介绍了梯度消失问题和梯度爆炸问题。

第四章深度神经网络为何难训练

对于图像识别问题,深度神经网在感官上是这样工作的,第一层神经元能够识别边,角等初等问题,第二层神经网络能够学习图形例如三角形正方形等问题,第三层网络能够识别更加深度的问题,层次越深的网络能够学习的问题的复杂性越高。

4.1深度神经网络的梯度消失问题

梯度消失(vanishing gradient problem)表现为后面的层学习得比前面的层学习得快,想象一下,因为梯度往前传播的过程中,梯度的值越来越小。

梯度爆炸(exploding gradient problem)表现为后面的层学习得不如前面的层学习得快。

4.2深度神经网络梯度不稳定的原因

因为前面层的梯度来自后面层上项的乘积。唯一让所有层都接近相同的学习速度的方式是所有这些项的乘积都能得到一种平衡。

4.3其他深度学习的障碍

深度神经网络目前面临的最主要最根本的问题就是梯度不稳定的问题,包括梯度消失和梯度爆炸的问题。当然目前还有一些其他的问题。人们发现sigmoid函数会导致最终层上的激活函数在训练中汇聚在0,导致了学习缓慢,可以使用其他的激活函数。总结一下,激活函数的选择,权重的初始化,甚至是学习算法的实现方式都扮演重要的角色。

你可能感兴趣的:(神经网络与机器学习笔记,神经网络,深度学习,人工智能,机器学习)