Datawhale 李宏毅机器学习 Task3

一、误差来源与分析

来源

从上节课测试集数据来看,Average Error (平均错误)随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果,而这些 Error 的主要有两个来源,分别是 bias(偏差)和 variance(方差)

估测(用宝可梦进化举例)

真实模型掌握在游戏公司手中,我们要做的是用上一章回归中 step1~step3 的步骤训练得到我们的理想模型,这个模型是对真实模型的估测,一个预估。

Datawhale 李宏毅机器学习 Task3_第1张图片

这个过程就像打靶,真实模型 就是我们的靶心,理想模型 就是我们投掷的结果。如上图所示,真实模型 与理想模型 之间蓝色部分的差距就是偏差和方差导致的。

评估变量x的偏差和方差

计算方式:   偏差(Bias)和方差(Variance)——机器学习中的模型选择

评估偏差:

Datawhale 李宏毅机器学习 Task3_第2张图片

 Datawhale 李宏毅机器学习 Task3_第3张图片

 (截图自datawhale笔记)

评估方差

Datawhale 李宏毅机器学习 Task3_第4张图片

为什么会有很多的模型?

这就像在靶心上射击,进行了很多组(一组多次)。现在需要知道它的散布是怎样的,将100个宇宙中的model画出来,不同的数据集之前什么都有可能发生。

不同模型,不同方差

一次模型的方差就比较小的,也就是是比较集中,离散程度较小。而5次模型的方差就比较大,同理散布比较广,离散程度较大。

所以用比较简单的模型,方差是比较小的(就像射击的时候每次的时候,每次射击的设置都集中在一个比较小的区域内)。如果用了复杂的模型,方差就很大,散布比较开。

这也是因为简单的模型受到不同训练集的影响是比较小的。

不同模型,不同偏差

Datawhale 李宏毅机器学习 Task3_第5张图片

Datawhale 李宏毅机器学习 Task3_第6张图片

偏差与方差 

Datawhale 李宏毅机器学习 Task3_第7张图片

将系列02中的误差拆分为偏差和方差。简单模型(左边)是偏差比较大造成的误差,这种情况叫做欠拟合,而复杂模型(右边)是方差过大造成的误差,这种情况叫做过拟合。

剩下的笔记还在完成

参考资料:
​​​​​

李宏毅机器学习

Datawhale 笔记资料

你可能感兴趣的:(Datawhale,李宏毅机器学习)