Bias-Variance Tradeoff

统计学习中有一个重要概念叫做residual sum-of-squares:


RSS看起来是一个非常合理的统计模型优化目标。但是考虑K-NN的例子,在最近邻的情况下(K=1),RSS=0,是不是KNN就是一个完美的模型了呢,显然不是KNN有很多明显的问题,比如对训练数据量的要求很大,很容易陷入维度灾难中。


KNN的例子说明仅仅优化RSS是不充分的,因为针对特定训练集合拟合很好的model,并不能说明这个model的泛化能力好,而泛化能力恰恰又是机器学习模型的最重要的要求。真正能说明问题的不是RSS,因为它只是一个特定训练集合,而是在多个训练结合统计得出的RSS的期望,MSE(mean squared error),而MSE又可以拆分成bias和variance两部分:

Bias-Variance Tradeoff_第1张图片

(式子的推导很显然,只要填一项减一项,展开式子,多余的那一项等于0)


从上面的式子可以看出,低偏倚的model在训练集合上更加准确,低方差的model在不同的训练集合上性能更加稳定。举两个极端的例子:

1、记住训练集合上所有的点的label,这样的系统低偏倚,高方差

2、无论输入是什么,总是预测一个相同的,这样的系统高偏倚,低方差。

因此在一个model的选择上需要进行偏倚和方差的权衡。

Bias-Variance Tradeoff_第2张图片

显然复杂的模型能更好的拟合训练集合能更好的拟合训练集合上的点,但是同时高复杂度的模型泛化能力差,造成了高方差。横坐标的右侧是过拟合overfit的情况,而左侧是欠拟合underfit的情况。


可见如果目标函数只是优化RSS那么在有限训练集合的情况下,很难训练出一个效果好的模型,想一下在分类中表现比较好的SVM基于maxiumu margin的思想,而maxent考虑的是熵的最大,均是增加泛化能力,降低模型复杂度的手段。一个较好的选择是改进优化函数,在优化RSS的同时,惩罚复杂模型:



你可能感兴趣的:(Bias-Variance Tradeoff)