为什么深度学习不使用牛顿法或拟牛顿法优化

  1. Hessian矩阵是 nn n ∗ n 的所以空间复杂度会很高
  2. f(xk+1)=f(xk)1/2gTH1g f ( x k + 1 ) = f ( x k ) − 1 / 2 g T H − 1 g ,所以当f是convex时,牛顿法迭代目标函数一定会下降,但是深度学习是non-convex,所以牛顿法并不是太适用。

你可能感兴趣的:(为什么深度学习不使用牛顿法或拟牛顿法优化)