S6. 回归分析为什么误差方差中自由度是n-2?

  1. Crawley MJ. Statistics: An Introduction Using R [Internet]. 2nd ed. Wiley; 2014. Available from: http://gen.lib.rus.ec/book/index.php?md5=7039b0c2dae409ebbd1cc9bdb44c10bd p118

当响应变量和解释变量都是连续变量时,我们通常使用的统计方法是回归分析。当想知道适不适合用回归分析时,最简单的方法是做散点图,对于方差分析则做箱线图或是条形图。
回归分析的本质是利用样本数据估计参数值和它们的标准误。但是首先我们需要选择一个能够描述解释变量和响应变量间关系的模型。我们能选的模型有数百个。也许学习回归最重要的事情是模型选择。最简单的模型是线性回归y=a+bx。模型中有2个参数,a和b,a是截距b是斜率。b很重要,有必要弄清楚它涉及的内容。y的变化除以x的变化。
估计出2个参数以后,我们还想知道它们的可靠性或不可靠性。我们最想要的是参数的最大似然估计,就是说,给定数据,选择一个线性模型,我们想找出使数据出现可能性最大的参数。
回归斜率b的最小二乘估计:最佳拟合斜率是通过旋转直线直至找出残差平方和最小。
自由度的估计:我们应当知道与每个均方和相应的自由度。最容易处理的是得到总均方和的,因为它的自由度总是有相同的公式。定义是


,你可以发现只有一个从数据中估计的参数——均值ybar。因为我们已经从数据中估计了一个参数,所以我们有n-1个自由度(n是观测值的总个数)。第二个比较容易得到的是误差均方和的自由度。 让我们看一下它的式子有多少个参数需要估计
。我们需要知道a和b2个的数值才能计算SSE。它们是从数据中估计的,所以误差的自由度是n-2.这一点很重要,所以重读最后一句话如果你还没有看见它。3个中最困难的是回归的自由度,因为你需要用一个不同的方式去思考。问题是:在y的均值之外有多少个额外的参数?答案是1。那个额外要估计的参数是斜率b。所以这个只有一个解释变量的简单模型中,回归的自由度是1。

你可能感兴趣的:(S6. 回归分析为什么误差方差中自由度是n-2?)