Bias and Variance

本文主要是想解释清楚machine learning中比较重要的两个概念及他们的关系,之前说到过过拟合问题,过拟合问题可以这样理解,由于我只是为了目标cost函数最小而选用比较复杂的模型来拟合,来达到每个点基本都是完全预测正确这样的一个效果,但是问题来了,这样的预测模型好不好?

举一个例子,假如在2维平面上有2个点,我可以找一条直线经过他们,如果有3个点,一条直线一般不能同时经过他们,这时可以选择2次函数,以此类推,假如有n个点,一般是会有n+1次函数可以经过所有的点,但是,可能当我们处理另外一组样本时,我们的模型效果会很差,当时对于一个模型来说,并不是它满足一组样本最小就可以,模型所要揭示的是所有样本的一些规律性的东西。所以,有了如下的理论,我们定义均方误差MSE:


这里之所以有一个期望,是因为我们的目标是所有样本集合的误差期望最小,而不是单单一个样本集合然后有:


这个公式的推导只需要注意Ef(x)和Ey都是常数的性质,可以推导出来。

最后可以定义MSE有bias平方加上variance而来。

Bias 和 Variance有如下定义:

Bias: a learner’s tendency to consistently learn the same wrong thing,即度量了某种学习算法的平均估计结果所能逼近学习目标(目标输出)的程度。

Variance:the tendency to learn random things irrespective of the real signal,即度量了在面对同样规模的不同训练集时,学习算法的估计结果发生变动的程度。

下面有2幅图,较好的解释了bias,variance 和model complexity的关系。

Bias and Variance_第1张图片Bias and Variance_第2张图片

可以发现,随着模型越来越复杂,bias会逐渐减小,但是variance会逐渐增大,而对于我们一般的模型,比如线性回归(不加regularization)的目标仅仅只是减小bias,所以会产生过拟合问题,其实,我们的最优模型是图像中间的某个位置,因为我们要保证的是MSE这个式子最小。

你可能感兴趣的:(机器学习与数据挖掘,bias,Variance)