李宏毅深度学习课程笔记05——神经网络训练不起来怎么办

1.驻点

驻点又称临界点(critical point),是指多元函数一阶导数等于零的点。

寻找到函数的驻点时loss function的导数为零,根据梯度下降算法,参数不再进行更新,但驻点不一定是我们要寻找的函数的极值点,可能是局部最小值(local minima),也可能是鞍点(saddle point),如果不做处理,loss无法继续下降,就会导致优化失败。

李宏毅深度学习课程笔记05——神经网络训练不起来怎么办_第1张图片

上图展示了驻点两种情况,首先我们要判断出是哪一种。

根据泰勒近似展开将损失函数用包含一阶导数和二阶导数的多项式来表示,表达式第二项中的 g 是梯度向量,第三项中的 H 是二阶偏导数的矩阵。

李宏毅深度学习课程笔记05——神经网络训练不起来怎么办_第2张图片

如下图所示,到达驻点临界点时梯度为零,所以表达式中第二项的值为零,也就是说由二阶偏导矩阵 H 来确定驻点处surface的情况。

李宏毅深度学习课程笔记05——神经网络训练不起来怎么办_第3张图片

具体来讲,local minima、local maxima、saddle point这三种情况分别对应矩阵恒正、恒负和有正有负。

李宏毅深度学习课程笔记05——神经网络训练不起来怎么办_第4张图片

 如果判断出当前在鞍点处,则可以沿着 u 也就是负的特征向量的方向更新,逃离鞍点。

李宏毅深度学习课程笔记05——神经网络训练不起来怎么办_第5张图片

你可能感兴趣的:(机器学习,深度学习,人工智能)