综述:神经网络的优化-优化器,动量,自适应学习率,批量归一化

综述:神经网络的优化-优化器,动量,自适应学习率,批量归一化

[email protected]


在本文中,我将讨论与神经网络优化有关的以下概念:

  • 优化面临的挑战
  • 动量
  • 适应性学习率
  • 参数初始化
  • 批量归一化

优化面临的挑战

当谈论神经网络中的优化时,我们其实是在讨论非凸优化问题(non-convex optimization)。

与之对应,凸优化(Convex optimization)中,函数只有一个最优值,对应于全局最优值(最大值或最小值)。对于凸优化问题,没有局部最优的概念,这使得它们相对容易解决-这些是本科和研究生课程中的常见入门优化问题。

非凸优化涉及具有多个最优值的函数,其中只有一个是全局最优值。根据损失曲面loss surface,很难找到全局最优值

对于神经网络,我们这里所说的曲线或曲面称为损失曲面。由于我们试图使网络的预测误差最小,因此我们需要在此损失曲面上找到全局最小值-这是神经网络训练的目的。

针对神经网络训练,有很多相关问题需要考虑:

  • 使用的合理学习率是多少?太小的学习率将花费太长时间才能收敛,而太大的学习率将意味着网络将不会收敛。

  • 我们如何避免陷入局部最优?一个局部最优可能被特别陡峭的损失函数所包围,并且可能难以“逃脱”该局部最优。

  • 如果损失曲面形态发生变化怎么办?即使我们可以找到全局最小值,也无法保证它将永远保持全局最小值。举个栗子:在不代表实际数据分布的数据集上进行训练时,将其应用于新数据时,损失曲面将有所不同。这就是为什么使训练和测试数据集要能够代表总数据分布如的重要原因之一。另一个很好的例子是数据由于其动态特性而习惯性地发生变化,例如,用户对流行音乐或电影的偏好会每天和每月都会改变。

幸运的是,解决这些挑战已经存

你可能感兴趣的:(计算机视觉综述,计算机视觉,人工智能)