#深入理解# 机器学习中误差和残差的区别

这里首先需要了解以下观察值、真实值和预测值的关系->三者的区别请参考我的这篇文章->从根本上理解 机器学习中真实值、观测值、预测值的区别
简单来讲,误差是观察值与真实值之间的差;残差是观察值与模型估计值之间的差,因此误差和样本数据的构造有关残差和预测模型有关,一般我们只关心残差。

其实了解到这已经足够了,但是想要进一步理解误差和残差的区别请往下看

误差是观察值与真实值之间的差。经典测验理论(CTT)的基本假设是:X=T+E。也就是说,观察值等于真值加上误差。我们的任何一次测量都带有误差(每一次测量的这个误差具体是多少是不清楚的,只有把所有测量结果进行分析后才知道误差有多大),经典测验理论认为误差是随机分布,且误差均值为0。因此,经过多次测验后,将观测值求平均就可以看作为真值。也就是说,多次测量求得的平均数是真值的最佳估计。

残差是观察值与模型估计值之间的差。以回归分析为例,回归方程y=b0+b1x,当知道b0和b1时这就是一个真实的回归模型。比如y=2+3x。取一个数值(1,2),则模型估计值为y=2+3×1=5。残差为2-5=-3。因此,只要有一个确定的取值以及模型,则模型肯定有一个估计值,也就有一个残差了。对残差进行分析是回归分析的一个重要部分。

参考文章->误差和残差

你可能感兴趣的:(机器学习,残差,误差,机器学习,深度学习,区别)