python方差的计算公式为什么减一_计算样本方差时为什么是除以(n-1)?

特别专题:计算样本方差时为什么是除以(n-1)?

对于初学者,上面这个问题可能会感到十分困扰,计算平均数难道不应该直接除以样本量n吗,怎么好好地偏要除以(n-1)?实难理解。负责任的老师讲到这里一般会给你抛出一个叫“自由度”的概念,说因为“计算过程中,我们用样本均数代替总体均数,所以自由度要损失1,因此就是(n-1)”。然后就继续往下讲了,你懂了吗?肯定不懂。

今天我就带着大家一步一步搞懂这其中的道理,期待能帮你解惑!

如果听过我们“丁点帮你”公众号的《SPSS软件应用与统计思维》课的同学可能会觉得:怎么讲的这么基础啊?那些还用讲吗?是的,我们这套课程就是完全强调基础的一门课。因为我们发现,往往理解的难处实际在于基础知识的似是而非,在很简单地地方犯糊涂。比如,方差这个概念,看着很简单,实则有一些很重要的内容稍不留神就被忽略。

首先,我们要知道,方差分为总体方差和样本方差(这一点如果没有区分,你是弄不懂为什么除以(n-1)这个问题的)。接着,如何计算方差?不就是用每一个数减去均数,再平方,然后加和求平均吗?说着很简单,但你知道这里的均数是指什么均数吗?答案是“总体均数”,对,是“总体均数”!也就是说,如果总体均数已知,你求样本方差的时候是除以n的,而不是除以(n-1),计算公式如下:

注:上式S的平方代表样本方差;Xi 代表样本值,μ代表总体均值,n代表样本量。

但是,现实生活中,我们往往不清楚一个总体的总体均数,而是通过抽取样本,计算样本均数,然后用样本均数来代替总体均数,所以样本方差的计算就变为:

仔细比较这两个公式,就会发现,以前老师讲的确实没错,当把总体均数变为样本均数时,除以n就变成除以(n-1)了。所以,看到这里,你至少明白,变化的原因实际上就在于总体和样本的区别。关于总体和样本,不太明白的同学可以去看看我们第三讲“统计学核心思维与统计描述”的讲解。

我们都知道,统计学重要的研究内容之一是“用样本推测总体”。具体而言,就是用样本均数和样本标准差来估计总体均数和总体标准差,而这里的估计有一个很重要的原则就是“无偏”。所谓“无偏”,就是说,样本值应该是围绕总体值上下波动的,它不能总在总体值的上面,或者总在总体值下面。这里我们需要明确,对于一个特定的总体,其总体均数和总体标准差是恒定不变的。但是,从总体中我们可以进行无数次抽样,每次抽样便获得一个特定的样本,然后计算出特定的样本均数和样本标准差。所以,只要抽样一次,样本值就可能变化一次。因此,样本值是变化的。用一个变化的量去估计一个恒定的量,首要原则就是“无偏”。换言之,如果我们知道某一个变化的量如果总是小于这个恒定的量,那么这个变化量就不是一个无偏估计。

比如,数学上可以证明:

上面不等式恒成立。注意,左边是样本均数,右边是总体均数。所以,我们知道,当用样本均数代替总体均数后,上面左边的式子总是小于右边的式子。因此,如果我们采取左式计算样本方差,那它就不是总体方差的“无偏”估计了,而是总小于总体方差。可现实中我们无法计算右式(总体均数μ未知),那该怎么办呢?于是,人们就想,既然左式总会低估,那有没有什么办法把它调整一下呢?唯一的办法就是从分母下手,将它的分母调小,这个值不就变大了吗?因而把除数n变小是可取的。问题是变多少呢?你说变成(n-1),那为啥(n-2)就不行?看到这里,我们不得不佩服统计学家们的智慧:通过数学公式推到,他们找到如下定量关系:

把上式稍作调整,我们便可以得到:

仔细看看,上面左右等式就是我们开篇提出的样本方差的计算方法。右边是是减去的总体均数,即理想情况下,知道总体均数的计算方法;它等于左边运用样本均数的求法,就是这么神奇!由此,样本均数之所以要除以(n-1)实际上是通过数学公式推导出来的,而不是拍脑袋决定的。而引入自由度的概念,某种程度是为数学推导的结论增添了实际含义。

以上便是样本方差(n-1)的大致缘由,简单起见,文章略去了具体的数学推导过程,而是重点通过“总体”与“样本”的区别以及“无偏估计”的原则给大家梳理了其中的逻辑,希望能增进你的理解。

对文中数据推导感兴趣的同学可阅览(本文有参考):

你可能感兴趣的:(python方差的计算公式为什么减一_计算样本方差时为什么是除以(n-1)?)