李宏毅机器学习part5-8

本篇文章主要基于以下资料:开源文档:https://datawhalechina.github.io/leeml-notes   视频地址:https://www.bilibili.com/video/BV1Ht411g7Ef

一、误差的来源

Error 的主要来源,分别是 bias 和 variance。在研究过程中通常会遇到bias-variance-trade-off。在K-fold validation中,当 K 值大的时候, 我们会有更少的 Bias(偏差)、更多的 Variance。当 K 值小的时候, 我们会有更多的 Bias(偏差)、更少的 Variance。

图片来源:https://datawhalechina.github.io/leeml-notes 

模型越复杂,估计的方差越大,但是估计的偏差反而越小。直观的解释:简单的模型函数集的space比较小,所以可能space里面就没有包含靶心,肯定射不中。而复杂的模型函数集的space比较大,可能就包含的靶心,只是没有办法找到确切的靶心在哪。

总结:如果一个模型的偏差比较大,那么应该加入更多的predictors去扩充模型,增加模型的复杂度,如果一个模型的方差比较大,就需要增加样本量。

二、梯度下降

1.学习率的重要性

学习率太小,损失函数下降的非常慢;学习率太大,损失函数下降很快,但马上就卡住不下降了;学习率特别大,损失函数就飞出去了。因此选择一个合适的学习率很重要。

2.学习率的确定

自适应学习可以使得在初始时学习率比较大,收敛速度较快,当越来越接近真实值时,学习率则比较小。

(1)Adagrad算法

图片来源:https://datawhalechina.github.io/leeml-notes ,其中 σt :之前参数的所有微分的均方根,对于每个参数都是不一样的。

缺陷:在多参数情况下不一定成立。

(2)随机梯度下降法

图片来源:https://datawhalechina.github.io/leeml-notes 

对每一个样本都进行一次update,通常的梯度下降是集合所有样本的loss function,每一次update是针对所有样本的。

(3)特征缩放

图片来源:https://datawhalechina.github.io/leeml-notes 

这样子可以使得在不同方向上使用相同的学习率。

你可能感兴趣的:(李宏毅机器学习part5-8)