第7章 网络优化与正则化

搭建神经网络的两个难点

(1) 优化问题:首先,神经网络的损失函数非凸,找到全局最优解通常比较困难.其次,深度神经网络的参数非常多,训练数据也比较大,因此也无法使用计算代价很高的二阶优化方法, 而一阶优化方法的训练效率通常比较低.此外,深度神经网络存在梯度消失或爆炸问题,导致基于梯度的优化方法经常失效.

(2) 泛化问题:由于深度神经网络的复杂度比较高,并且拟合能力很强,容易在训练集上产生过拟合.因此需要通过一定的正则化方法来改进网络的泛化能力.

7.1 网络优化

网络优化的两个难点:网络结构多,没有通用的优化算法;超参数多

低维空间的非凸优化问题:逃离局部最优点.

主要难点是如何选择 初始化参数和逃离局部最优点。

高维空间中的非凸优化问题:逃离鞍点(Saddle Point)

鞍点的特征是一阶梯度为 0,但是二阶梯度的 Hessian 矩阵不是半正定矩阵; 鞍点的梯度是0,但是在一些维度上是最高点,在另一些维度上是最低点。

随机梯度下降对于高维空间中的非凸优化问题十分重要,通过在梯度方向上引入随机性,可以有效地逃离鞍点。

平坦最小值

局部最小解 

7.2 优化算法

7.2.1 小批量梯梯度下降  Mini-Batch Gradient Descent

梯度下降法可以分为:批量梯度下降、随机 梯度下降以及小批量梯度下降三种形式

影响小批量梯度下降法的主要因素有:1)批量大小、2)学习率、3)梯度估计

你可能感兴趣的:(邱锡鹏笔记,深度学习,神经网络,机器学习)