偏差-方差权衡

偏差-方差权衡
偏差-方差权衡_第1张图片
偏差表示了学习算法的期望预测输出与真实输出的偏离程度, 刻画了学习算法本身的拟合能力,反映了模型的准确性 ;方差表示了同样大小的训练集的变动所导致的学习性能的变化, 刻画了数据扰动所造成的影响,反映了模型的稳定性 ;噪声表示给定学习任务下任何学习算法的期望泛化误差下界, 反映了学习任务本身的难度
偏差-方差权衡_第2张图片
类似于打靶射击:偏差小方差大表示打的靶都在靶心附近,瞄的准但是手不稳。
方差小偏差大表示打的靶很集中,但不一定在靶心附近,手很稳但瞄不准。
偏差-方差分解说明,泛化能力是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的,给定学习任务,为了取得好的泛化性能,需使偏差较小,即能够充分拟合数据,并使方差较小,使数据扰动产生的影响最小。 
偏差-方差权衡_第3张图片
开始训练不足时模型简单欠拟合,偏差大,此时模型对于不同训练集的性能差异小,方差小,随着训练程度的增加,模型拟合能力增强,偏差减小,同时不同训练集产生的模型差异增大,方差增大,当训练程度过强时,每个训练集自身的噪声数据都被学习到,就会产生过拟合。
在一个实际系统中,Bias与Variance往往是不能兼得的。如果要降低模型的Bias,就一定程度上会提高模型的Variance,反之亦然。造成这种现象的根本原因是,我们总是希望试图用有限训练样本去估计无限的真实数据。当我们更加相信这些数据的真实性,而忽视对模型的先验知识,就会尽量保证模型在训练样本上的准确度,这样可以减少模型的Bias。但是,这样学习到的模型,很可能会失去一定的泛化能力,从而造成过拟合,降低模型在真实数据上的表现,增加模型的不确定性。相反,如果更加相信我们对于模型的先验知识,在学习模型的过程中对模型增加更多的限制,就可以降低模型的variance,提高模型的稳定性,但也会使模型的Bias增大。Bias与Variance两者之间的trade-off是机器学习的基本主题之一。
k折交叉验证与偏差方差 :首先随机地将初始训练数据集切分成k个互不相交的大小相等的子集,然后利用其中k-1个子集训练模型,利用余下的一个子集测试模型,重复上述过程K次得到k个模型,最终返回这k个测试结果的均值。
k折交叉验证用于选择泛化能力最好的模型。为了减少数据扰动对模型选择的影响,k折交叉验证选择k次建模平均测试误差最小的模型,当k值很大时,每次训练数据集中的样本数越多,建模次数也越多,平均测试误差最小的模型具有更好的拟合能力,但这时测试集越小,每次训练集之间的相关性越大,方差越大;当k值很小时,偏差大,方差小。
bagging、boosting与方差偏差 :bagging和boosting算法都是通过集成的方式提高模型的泛化能力。
bagging方法通过分别对多个独立同分布的相等容量的训练数据集进行训练,产生多个弱分类器进行多数表决,使得模型的稳定性更好,降低了方差。
boosting方法通过不断训练调整同一个训练集中样本的权重构造多个弱分类器,并进行加权表决,使得模型对训练数据集达到充分的拟合,提高了模型的准确性,降低了偏差。


你可能感兴趣的:(机器学习面试点总结)