【11月组队学习】误差与梯度下降

误差

模型的误差主要包含两种,偏差(bias)和方差(variance)。

【11月组队学习】误差与梯度下降_第1张图片

偏差(Bias)

在训练过程中可以发现。偏差太大,会导致underfitting。

【11月组队学习】误差与梯度下降_第2张图片

 改进

1 设计新的模型

2 包含更多的特征

方差(variance)

在测试过程中可以发现。方差太大,会导致overfitting。

模型的复杂度越高,其variance也越高,更容易受输入数据的影响。

【11月组队学习】误差与梯度下降_第3张图片

 改进

1 增加更多的数据

2 正则化

总结

【11月组队学习】误差与梯度下降_第4张图片

 梯度下降

原理

泰勒展开

【11月组队学习】误差与梯度下降_第5张图片

 Loss函数利用泰勒展开,基于假设:learning rate/radius足够小。所以学习率对模型的优化非常重要。

如何更好的梯度下降?

1、可视化参数、学习率对损失函数的影响

【11月组队学习】误差与梯度下降_第6张图片

 2、Adagrad 自适应学习率

对每一个参数:

【11月组队学习】误差与梯度下降_第7张图片

误区:一次偏导越大,离最低点的距离就越远。【关于g^i同时做分子和分母的矛盾】

 该假设在跨参数比较时并不成立,如下图(a点与c点)

【11月组队学习】误差与梯度下降_第8张图片

最佳步长与一阶导数、二阶导数均有关:

【11月组队学习】误差与梯度下降_第9张图片

 3、Stochastic

更新参数时,随机选取一个样本计算loss,而不是看完所有的样本再算loss。

在数据量较大时,也可以分批计算loss,在增加更新次数的同时,避免太大的运算量。

【11月组队学习】误差与梯度下降_第10张图片

 4、Feature scaling

特征归一化,统一所有特征的值的分布范围。

【11月组队学习】误差与梯度下降_第11张图片

 第一个图的直观理解:圈圈为loss等值线,同样的训练样本,如果w_1减少1,w_2不变,loss会有“1”的变化;如果w_2减少1,w_2不变,loss会有"100"的变化。所以w_2方向上变化更明显,等值线密集。

你可能感兴趣的:(回归)