机器学习 day29(高偏差、高方差,参数d对模型的影响)

1. 高偏差、高方差、拟合能力、泛化能力
机器学习 day29(高偏差、高方差,参数d对模型的影响)_第1张图片

  • 偏差和方差分别代表拟合能力和泛化能力
  • 若给左图数据集拟合一阶多项式(d取1),则该模型有很高的偏差(欠拟合)。因为它对训练集和验证集的表现均不好,所以Jtrain很高,Jcv也很高。
  • 若给右图数据集拟合四阶多项式(d取4),则该模型有很高的方差(过拟合)。因为它对训练集拟合良好,但对验证集泛化不好,所以Jtrain很低,但Jcv远高于Jtrain
  • 若给中图数据集拟合二阶多项式(d取2),则该模型拟合良好且泛化良好。因为它对训练集和验证集的表现均良好,所以Jtrain、Jcv都很低
  • 对于单个输入特征种类,我们可以通过画图来判断模型是否泛化良好、拟合良好,若输入特征很多,画图不好画,则可以通过Jtrain和Jcv的大小关系来判断

2. 超参数d与Jtrain、Jcv的关系
机器学习 day29(高偏差、高方差,参数d对模型的影响)_第2张图片

  • 假设没有使用正则化,则随着拟合多项式的阶数越高,Jtrain逐渐下降,即高阶多项式会越来越适合训练集
  • 当d取1时,Jcv非常高,此时模型欠拟合,所以它在验证集上的表现也不好;当d取4时,Jcv依然很高,此时模型过拟合,所以它在验证集上的表现不好:但如果d取2,Jcv可能很低,此时模型泛化良好、拟合良好。综上:随着拟合多项式的阶数越高,Jcv先下降再上升,即低阶多项式是欠拟合,高阶多项式是过拟合

3. 如何判断模型是否具有高偏差、高方差,即欠拟合或过拟合
机器学习 day29(高偏差、高方差,参数d对模型的影响)_第3张图片

  • 欠拟合/高偏差意味着Jtrain很高,同时Jcv近似于Jtrain
  • 过拟合/高方差意味着Jcv远大于Jtrain,而Jtrain可能很低
  • 虽然对于同一个位置上不可能同时存在高偏差和高方差,但一个模型在不同位置可以既有高偏差、又有高方差,即同时存在过拟合和欠拟合的问题,如上图所示:左侧过拟合,右侧欠拟合,那么此时左侧的Jcv远大于Jtrain,且右侧Jtrain很高

你可能感兴趣的:(机器学习,学习)