Datawhale X 李宏毅苹果书AI夏令营深度学习详解进阶Task02

       

目录

一、自适应学习率

二、 学习率调度

三、优化总结

四、分类

五、问题与解答


        本文了解到梯度下降是深度学习中最为基础的优化算法,其核心思想是沿着损失函数的梯度方向更新模型参数,以最小化损失值。公式如下:


θt+1 ← θt - η * ∇θL(θt)


        其中,θ 表示模型参数,η 表示学习率,L 表示损失函数,∇θL 表示损失函数关于参数的梯度。然而,梯度下降在复杂误差表面上存在局限性。例如,在鞍点或局部最小值处,梯度接近零,导致模型参数更新缓慢甚至停滞不前。此外,固定学习率无法适应不同参数的更新需求,容易导致训练过程不稳定。


一、自适应学习率


        为了克服梯度下降的局限性,研究人员提出了自适应学习率算法,例如 AdaGrad、RMSProp 和 Adam。
        AdaGrad 根据梯度大小自动调整学习率,梯度较大的参数学习率较小,梯度较小的参数学习率较大。这有助于加速训练过程并提高模型性能。
        RMSProp 在 AdaGrad 的基础上引入了指数衰减机制,可以动态调整过去梯度的重要性,从而更好地适应梯度变化,避免学习率过早衰减。
Adam 结合了动量和自适应学习率,同时考虑了梯度的方向和大小,并引入了指数衰减机制。这使得 Adam 在多种情况下都表现出优异的性能,成为目前最常用的优化算法之一。

二、 学习率调度

        尽管自适应学习率算法可以有效提高训练效率,但在某些情况下仍可能出现问题。例如,AdaGrad 在训练后期可能出现“爆炸”现象,即学习率过大导致参数更新过快,从而影响模型性能。
学习率调度可以有效解决这一问题。常见的调度方法包括学习率衰减和学习率预热。
学习率衰减 随着训练过程的进行,逐渐减小学习率,有助于模型参数更加精细地更新,避免过拟合。学习率预热 在训练初期将学习率设置为较小的值,以避免参数更新过快,并逐步增加学习率,以提高训练效率。


三、优化总结


        优化算法的演变过程是一个不断探索和改进的过程。从最基础的梯度下降到自适应学习率算法,再到学习率调度,优化算法逐渐变得更加复杂和高效。
各种优化器之间的区别主要在于计算 mit 和 σit 的方式,以及学习率调度的策略。选择合适的优化器需要根据具体问题进行调整和实验。


四、分类


        分类与回归是深度学习中最常见的两种问题。回归是预测连续值,而分类是预测离散值。
在分类问题中,标签通常用数字或独热向量表示。独热向量可以避免类别之间预设关系的问题,并方便计算类别之间的距离。

五、问题与解答

        问题:动量 mit 和均方根 σit 都考虑了过去的梯度,一个放在分子,一个放在分母,它们不会互相抵消吗?
        解答:动量 mit 和均方根 σit 虽然都考虑了过去的梯度,但它们使用过去梯度的方式不同。动量直接将所有梯度相加,考虑了梯度的方向和正负;而均方根将梯度平方后再相加,只考虑梯度的大小,忽略了方向。因此,它们计算出来的结果并不会互相抵消。
        问题:为什么需要预热?
        解答:预热可以避免训练初期学习率过大导致参数更新过快,并帮助收集有关误差表面的信息,从而更好地调整学习率。
        问题:分类与回归的关系是什么?
        解答:分类可以看作是回归的一种特殊情况,即输出为离散值。在分类问题中,标签通常用数字或独热向量表示。
        问题:独热向量在分类问题中有什么作用?
        解答:独热向量可以避免类别之间预设关系的问题,并方便计算类别之间的距离,从而更好地进行分类。
        问题:除了 AdaGrad、RMSProp 和 Adam,还有哪些常用的优化算法?
        解答:除了 AdaGrad、RMSProp 和 Adam,还有许多其他常用的优化算法,例如 SGD、Momentum、Nesterov Momentum 等。选择合适的优化算法需要根据具体问题进行调整和实验。

你可能感兴趣的:(人工智能,深度学习)