Understanding the Bias-Variance Tradeoff

参考资料:
Understanding the Bias-Variance Tradeoff
李宏毅机器学习视频 5.2 Where does the error come from(Av10590361,P5).Flv

以下讨论的假设是基于
1、存在理想分类器。
2、验证集和测试集的分布相同。

  • 描述领域:model prediction

  • bias:预测模型跟真实模型之间的差距,bias比较大,说明比较少关注训练数据和简化了模型,会在训练数据和测试数据上都产生很大的错误。

  • variance:特定数据对模型的影响程度,variance比较大,说明用户比较关注训练数据,但是泛化能力比较弱。在训练数据上比较差别小,测试数据上差别大。非常准确,但是对训练数据的噪声比较敏感。


  • 为什么需要平衡Bias、Variance?
    模型简单就会不准确,对噪声也不敏感。
    模型复杂就会准确,但是对无法抵御噪声的影响,太准确了也不行。

  • Total error:
    Irreducible error:数据噪声带来的,噪声是不可消除的。




  • 怎么诊断和解决
    如果连训练数据都无法fit——underfit,就是bias的问题



  • emsemble可以表现更好
    我们知道复杂的模型中Variance是比较大的,模型受训练数据的影响比较大,因此emsemble可以集合多个模型进行平均得到一个Variance更小的模型。


    image.png

你可能感兴趣的:(Understanding the Bias-Variance Tradeoff)