聊到这几个概念，一般人如果不认真看，还真容易搞混。看上去貌似很高大的术语，其实理解后很简单。接下来，咱们就看下。

偏差

是指在同一份数据集上，训练一个模型，模型的预测值和r人工标注值（注意人工标注值并非Ground Truth，人工会有失误，错误）之间的差距。

方差

多个大小规模一样的不同数据集，训练多个不同的模型，每个模型都会有一个预测值，然后算不同预测值的方差。
这里请注意:
方差是衡量不同模型预测结果的一致性，也就是模型的稳定性，如果在不同训练集上，训练出来的多个模型，大家高度一致，那么方差就小，否则方差大。方差小，也说明了，模型在未知数据上的泛化能力强. 当在一份数据上训练模型时，其他训练数据，可能看成验证集，其他数据训练的模型和当前这份高度一致，不就是说明了训练集和验证集指标一样，没有过拟合，泛化能力强

噪声

噪声是指标注的错误，为Ground Truth与数据集中的实际标记间的偏差

泛化误差

image.png

理解

这几个指标很好理解，结合下面这张图：

image.png

红色线偏差 Bias
| 训练开始阶段：模型欠拟合，所以预测不准，导致偏差大。
| 随着训练时间增加，模型拟合越来越好，导致偏差越来越小。
| 当训练时间很长时，模型过拟合，但是别忘了，偏差可是在同一份数据上算的，过拟合时，在这份数据上预测肯定很准，偏差会很小的。
绿色线方差 Variance
| 训练开始阶段：无论在哪个数据集上，大家都欠拟合，都不准，可能大家预测的准确率高度一致。导致方差大。
| 随着训练时间增加，模型拟合越来越好，大家预测的结果大部分一致，也有一部分不一致，所以方差就会加大
| 当训练时间很长时，模型过拟合，导致大家都在自己的训练数据上预测的很牛逼，在其他的数据上很差，因此大家结果不一致，方差较大。
泛化误差黑线
是方差和偏差的和，可以发现
| 训练开始阶段：模型欠拟合，所以预测不准，导致泛化误差大。
| 随着训练时间增加，模型拟合越来越好，导致泛化误差越来越小
| 当训练时间很长时，模型过拟合，方差变大，导致泛化误差越来越大

结论

方差是体现的未知数据的泛化能力。
偏差是体现的当前训练数据上的拟合能力。
泛化误差模型的综合能力。兼顾当前数据和未知数据的综合能力。

<==============================================>

问题

Boosting/Bagging 与偏差/方差的关系？

这种组合提升弱分类器性能原因：
| Boosting : 由于会不断地重视分错误的样本学习，会使得模型在当前数据集上学习的特别好。
使得偏差很低。
缺点：每轮迭代学习的学习器是强相关的，缺少独立性。没有那种随机性的特点，导致在本数据上偏差很低，容易过拟合。

| Bagging : 由于多个数据训练集训练了多个模型。利用投票原理，保证众投的结果相对稳定，不会有太大的波动，因此会降低方差。
从另一个角度也可以发现，N个独立不相关的模型众投取平均，那么方差就是原来的1/n. 假设所有分类器出错的概率都是独立，超过半数都出错的概率会随着，基分类器的增加而下降。

偏差（Bias）、方差（Variance）、噪声、泛化误差

偏差

方差

噪声

泛化误差

理解

结论

问题

你可能感兴趣的:(偏差（Bias）、方差（Variance）、噪声、泛化误差)