为什么 feature scaling 会使 gradient descent 的收敛更好

1. 不归一化,各维特征跨度差距很大,目标函数是扁的。在梯度下降时,梯度方向会偏离最小值方向,走很多弯路。

2. 对于梯度下降来说,学习速率对收敛速度至关重要。而不同跨度的特征,取相同的学习速率,会导致不同的特征收敛效果不同。

3. scale值越大的特征,对模型的影响越大。极端情况,损失函数会被某个值特别大的特征主导。

4. 牛顿法的收敛速度不受坐标系变换的影响。

https://www.zhihu.com/question/37129350

你可能感兴趣的:(为什么 feature scaling 会使 gradient descent 的收敛更好)