24 优化算法

目录

      • 优化和深度学习
      • 深度学习中的挑战
      • 局部最小 vs 全局最小
      • 鞍点(saddle point)
      • 梯度消失
      • 小结
      • 凸性(convexity)
      • 凸集
      • 凸函数(convex function)
      • 凸函数优化
      • 凸和非凸例子
      • 小结
      • 梯度下降(gradient descent)
        • 1、梯度下降算法是最简单的迭代求解算法
        • 2、学习率(learning rate)
      • 小结
      • 随机梯度下降(stochastic gradient descent)
      • 小结
      • 小批量随机梯度下降(minibatch gradient descent)
      • 小结
      • 冲量法(momentum)
      • 小结
      • Adam
      • 总结
      • 总结

  • 对于深度学习问题,通常会先定义损失函数,在有了损失函数之后,就可以使用优化算法来尝试最小化损失
  • 在优化中,损失函数通常被称为优化问题的目标函数
  • 大多数优化算法都关注的是最小化,如果需要最大化目标,只需要在目标函数前加负号就可以了

优化和深度学习

  • 尽管优化提供了一种最大限度减少深度学习损失函数的方法,但本质上优化和深度学习的目标是根本不同的

    • 优化主要关注的是最小化目标
    • 深度学习关注的是在给定有限数据量的情况下寻找合适的模型
  • 具体的区别例如训练误差和泛化误差

    • 优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差
    • 深度学习的目标是减少泛化误差,为了达到减小泛化误差的目的,除了使用优化算法来减少训练误差外,还需要注意过拟合
  • 经验风险和风险

    • **经验风险:**训练数据集的平均损失
    • **风险:**整个数据群的预期损失
    • 练数据集的最低经验风险可能和最低风险(泛化误差)不同
  • 优化问题的一般形式:

    24 优化算法_第1张图片

    • 在深度学习中,f(x) 是损失函数(给定一个输入,预测和真实标号之间的差距);x 是所有的超参数,不管矩

你可能感兴趣的:(动手学习深度学习,算法)