bias和variance

留记。

在A Few Useful Thingsto Know about Machine Learning中提到,可以将泛化误差(gener-alization error)分解成bias和variance理解。

 

Bias: a learner’s tendency to consistently learn the same wrong thing,即度量了某种学习算法的平均估计结果所能逼近学习目标(目标输出)的程度。

 

Variance:the tendency to learn random things irrespective of the real signal,即度量了在面对同样规模的不同训练集时,学习算法的估计结果发生变动的程度。比如在同一现象所产生的不同训练数据上学习的决策树往往差异巨大,而实际上它们应当是相同的。

从图像角度


靶心为某个能完美预测的模型,离靶心越远,则准确率随之降低。靶上的点代表某次对某个数据集上学习某个模型。纵向上,高低的bias:高的Bias表示离目标较远,低bias表示离靶心越近;横向上,高低的variance,高的variance表示多次的“学习过程”越分散,反之越集中。

从数学定义角度

以分类任务为例,均方误差MSE(mean squared error)

,其中Y为x对应的真实类标,f(x)为预测标号

则,


所以bias表示预测值的均值与实际值的差值;而variance表示预测结果作为一个随机变量时的方差。


Bias、variance与复杂度的关系




你可能感兴趣的:(算法)