关于机器学习中的误差、方差、偏差、噪声的一些个人理解。

首先是误差的概念,误差error可以理解为loss,在机器学习中,一般是定义一个误差函数(Loss Function),学习的过程就是最小化loss的过程。我们在学习的时候,最终学习的结果直接在所训练的数据上取得了最小的loss,但是在一般的数据集上实际的loss可能比较大,而由训练数据得到的loss与一般化数据的loss之间的差异叫泛化误差(generalization error)。

对于泛化误差,机器学习周志华书中描述如下:

泛化误差可分解为偏差、方差和噪声之和。

偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。

方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。

噪声则表达了当前任务上学习任何算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。

关于机器学习中的误差、方差、偏差、噪声的一些个人理解。_第1张图片

 

根据上面的图片所示,可以假设有一组训练数据,刚开始的误差和偏差很大,而方差很小,随着训练的进行,误差和偏差减小,方差变化不大,但是当训练时间过长时,这时候偏差基本不变,但是方差会比较大,这时候训练集的误差很小,但是实际的泛化误差变大。

所以也可以这样理解:偏差反应模型的准确性,偏差大即欠拟合状态,此时模型复杂度低,训练的不充分,误差也比较大;方差反应模型的稳定性,方差过大即过拟合状态,此时模型复杂度高,训练时间过长,训练集上的误差小,但是实际的泛化误差较大;噪声反应模型学习不了的部分,或者说影响模型学习的部分。

在机器学习的过程中,一方面尽可能的增大数据集或者选取到比较好的数据集,另一个方面是在训练的过程中平衡模型的方差和偏差,使模型既不欠拟合也不过拟合。

你可能感兴趣的:(关于机器学习中的误差、方差、偏差、噪声的一些个人理解。)