李沐_动手学深度学习第7章优化算法_笔记

目录

    • 1.优化与深度学习
      • 1.1优化与深度学习的关系
      • 1.2优化在深度学习中的挑战
    • 2.梯度下降和随机梯度下降
      • 2.1一维梯度下降
      • 2.2学习率
    • 3.小批量随机梯度下降
    • 4.Adagrad算法
    • 5.RMSProp算法
    • 6.AdaDelta算法
    • 7.Adam算法

1.优化与深度学习

对于深度学习问题,我们通常会先定义损失函数。一旦我们有了损失函数,我们就可以使用优化算法来尝试最小化损失。在优化中,损失函数通常被称为优化问题的目标函数。任何最大化问题都可以很容易地转化为最小化问题,只需令目标函数的相反数为新的目标函数即可。

1.1优化与深度学习的关系

由于优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差。但是,深度学习(或更广义地说,统计推断)的目标是减少泛化误差。为了降低泛化误差,除了使用优化算法来减少训练误差之外,我们还需要注意过拟合。

1.2优化在深度学习中的挑战

1.局部最小值
2.鞍点

2.梯度下降和随机梯度下降

2.1一维梯度下降

一维函数的梯度是一个标量,也称导数。

2.2学习率

3.小批量随机梯度下降

在每一次迭代中,梯度下降使用整个训练数据集来计算梯度,因此它有时也被称为批量梯度下降。而随机梯度下降在每次迭代中只随机采样一个样本来计算梯度。我们可以在每轮迭代中随机均匀采样多个样本来组成一个小批量,然后使用这个批量来计算梯度,这就是小批量随机梯度下降。

4.Adagrad算法

5.RMSProp算法

6.AdaDelta算法

7.Adam算法

你可能感兴趣的:(深度学习,机器学习,深度学习,算法,人工智能)