[统计学笔记](五)统计量及其抽样分布

统计量

统计学中最主要的提取信息的方式就是对原始数据进行一定的运算,得出某些代表性的数字,以反映数据某些方面的特征,这种数字称为统计量。用统计学的语言表述就是:统计量是样本的函数,它不依赖于任何未知参数。

推断统计学的重要作用就是,通过从总体中抽取样本构造适当的统计量,由样本性质去推断关于总体的性质。

统计量在统计学中具有极其重要的地位,它是统计推断的基础。统计量在统计学中的地位相当于随机变量在概率论中的地位。

定义

X_{1},X_{2},...,X_{n}是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X_{1},X_{2},...,X_{n}),不依赖与任何未知参数,则成函数T(X_{1},X_{2},...,X_{n})是一个统计量。

通常又称T(X_{1},X_{2},...,X_{n})为样本统计量。当获得样本的一组具体观测值x_{1},x_{2},...,x_{n},代入T,计算T(X_{1},X_{2},...,X_{n})的数值,就获得一个具体的统计量值。

常用统计量

根据上述可知,统计量是样本的一个函数,不同的推断问题要求构造不同的统计量。要注意的是,依赖于总体分布的未知参数不属于统计量,比如数学期望E(X)和方差D(X)

下列为常用的统计量:

[统计学笔记](五)统计量及其抽样分布_第1张图片


抽样分布

近代统计学创始人之人,英国统计学家费希尔曾把抽样分布、参数估计和假设检验看做统计推断的三个中心内容。

若对任一自然数n都能导出统计量T(X_{1},X_{2},...,X_{n})的分布的数学表达式,这种分布成为精准的抽样分布。它对样本量n较小的统计推断问题非常有用。精准的抽样分布大多是在正态总体情况下得到的。在正态总条件下,主要有\chi ^{2}分布、t分布、F分布,常称为统计三大分布。

抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布。样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。

从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。

抽样分布是统计推断的理论基础。

三大抽样分布是数理统计上的三个重要分布,由标准正态分布的总体样本组合而成。三大抽样分布一般是指:

  • 卡方分布(\chi ^{^{2}}分布)、
  • t 分布
  • F分布

卡方分布(Chi-square distribution)

卡方分布又叫:西格玛分布

设随机变量X_{1},X_{2},...,X_{n}相互独立,且X_{i}(i=1,2,...,n)服从标准正态分布N(0,1),则它们的平方和\sum_{i=1}^{n}X_{i}^{2}服从自由度为n\chi ^{2}分布。

自由度是统计学中常用的一个概念,它可以解释为独立变量的个数,还可以解释为二次型的秩。例如,Y=X^{2}是自由度为1的\chi ^{2}分布,rank(Y)=1Z=\sum_{i=1}^{n}X_{i}^{2}是自由度为n\chi ^{2}分布,rank(Z)=n

定义:若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

记为:\chi ^{2 } 分布。

[统计学笔记](五)统计量及其抽样分布_第2张图片

[统计学笔记](五)统计量及其抽样分布_第3张图片

 

 

当自由度足够大时,\chi ^{2 } 分布的概率密度曲线趋于对称。当  n \to \infty 时,\chi ^{2 } 分布的极限分布是正态分布。

 


 

t 分布(t-distribution)

在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

设随机变量X\sim N(0,1)Y \sim \chi^2(n),且XY独立,则

                                                    t=\frac{X}{\sqrt{Y/n}}

其分布称为t分布,记为t(n),其中n为自由度。

t 分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。

定义:设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1(X2/n)1/2所服从的分布为自由度为n的t分布。

[统计学笔记](五)统计量及其抽样分布_第4张图片

t 分布的密度函数是一个偶函数,如下图所示: 

[统计学笔记](五)统计量及其抽样分布_第5张图片

从上图中可以看出,t 分布的密度函数曲线与标准正态分布N(0,1)的密度函数曲线非常相似,都是单峰偶函数。只是,t(n)的密度函数的两侧尾部要比N(0,1)的两侧尾部粗一些。t(n)的方差比N(0,1)的方差大一些。

自由度为1的分布称为柯西分布,随着自由度n的增加,t 分布的密度函数越来越接近标准正态分布的密度函数。实际应用中,一般当n\geq 30时,t 分布与标准正态分布就非常接近。 


F分布

F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的。它是一种非对称分布,有两个自由度,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。

设随机变量YZ相互独立,且YZ分别服从自由度为mn\chi ^{2}分布,随机变量X有如下表达式:

                                                                     X=\frac{Y/m}{Z/n}=\frac{nY}{mZ}

则称X服从第一自由度为m,第二自由度为nF分布,记为F(m,n),简记为X\sim F(m,n)

定义:设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n。

[统计学笔记](五)统计量及其抽样分布_第6张图片

F分布的密度函数如下图所示: 

[统计学笔记](五)统计量及其抽样分布_第7张图片

在 F 分布中,两个自由度的位置不可以互换。这一性质在查 F分布表时有重要应用。

F分布与t分布还存在如下关系:如果随机变量 X 服从t(n)分布,则  X^{^{2}} 服从F(1,n)的 F分布。这在回归分析的回归系数显著性检验中有用。


正态分布(Normal distribution)

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。

服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)

正态分布图的图形特征
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。

实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。

查附表1应注意:①表中曲线下面积为-∞到u的左侧累计面积;②当已知μ、σ和X时先按式u=(X-μ)/σ求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数X1和标准差S分别代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,∞)的面积相等,④曲线下横轴上的总面积为100%或1。

一般正态分布与标准正态分布的区别与联系

正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。标准正态分布是正态分布的一种,其平均数和标准差都是固定的,平均数为0,标准差为1。


 三大抽样分布与正态分布的关系

与正态分布一同构成数理统计中的四大分布。由标准正态总体样本的适当组合构成的统计量形成数理统计中的其他三大基础分布。所以,数理统计中总是以正态总体作为研究对象展开。在数理统计中,"总体"、"抽样"、"样本"是三个基本概念,分位点是"小概率事件"发生的临界点,置信区间是参数估计和假设检验的核心计算问题。


中心极限定理

中心极限定理的定义:

设从均值为\mu、方差为\sigma ^2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值\bar X的抽样分布近似服从均值为\mu、方差为\sigma ^2/n的正态分布,即\bar X\sim N(\mu,\frac{\sigma ^2}{n}),等价有\frac{\bar X-\mu}{\sigma /\sqrt{n}}\sim N(0,1)

注意:的期望值与总体均值相同,而方差则缩为总体方差的。这说明当用样本均值去估计总体均值时,平均来说没有偏差(这一点称为无偏性);当越来越大时,的散布程度越来越小,即用估计就越来越准确。

该定理告诉我们,不管总体的分布是什么,此时样本均值的分布总是近似正态分布,只要总体的方差有限。

如上的定理要求必须充分大,那么多大才叫充分大?这与总体分布形状有关,总体偏离正态越远,则要求越大。然而在实际应用中,总体的分布未知。此时,我们常要求n\geq 30


计算题 1

[统计学笔记](五)统计量及其抽样分布_第8张图片

以上例题来源:《统计学(第7版)》,贾俊平,何晓群,金勇进编著,中国人民大学出版社。P124页的例题。


计算题 2


某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。

解答:已知p=60% ,N=500,n=100,

则在重复抽样下:

\large \sigma \left ( p \right ) = \sqrt{p\times \left ( 1-p \right )/n} = \sqrt{0.6\times \left ( 1-0.6 \right )/100} = 0.049,即4.9%

在不重复抽样下:

\large \sigma \left ( p \right ) = \sqrt{\frac{p \times \left ( 1-p \right )}{n}\times \left ( 1-\frac{n}{N} \right )} = \sqrt{\frac{0.6 \times \left ( 1-0.6 \right )}{100}\times \left ( 1-\frac{100}{500} \right )} = 0.044

即:4.4%


计算题 3

设从一个均值 \mu = 10,标准差 \sigma = 0.6 的总体中随机选取容量 n = 36 的样本。假定该总体不是很偏,要求:

(1)计算样本均值 \overline{X} 小于 9.9 的近似概率

(2)计算样本均值 \overline{X} 超过 9.9 的近似概率

(3)计算样本均值 \overline{X} 在总体均值 \mu = 10 附近 0.1 范围内的近似概率。

解答:根据中心极限定理,不论总体的分布是什么形状,在假定总体分布不是很偏的情况下,当从总体中随机选取 n = 36 的样本时,样本均值 \overline{X} 服从均值 \mu _{x} = \mu = 10,标准差 \sigma _{x} = \frac{\sigma }{\sqrt{n}} = \frac{0.6}{\sqrt{36}} = 0.1 的正态分布,即:

\overline{X} ~ N\left ( 10,0.1^{2} \right )

(1)P\left ( \overline{X}< 9.9 \right ) = P\left ( \frac{\overline{X}-10}{0.1}< \frac{9.9-10}{0.1} \right ) = P\left ( Z<\frac{-0.1}{0.1} \right ) = P\left ( Z< -1 \right ) = 1-P\left ( Z< 1 \right ) = 1-\phi \left ( 1 \right ) = 1-0.8413 = 0.1587

 

(2)P\left ( \overline{X}> 9.9 \right ) = 1-P\left ( \overline{X}\leq 9.9 \right ) = 1-0.1587 = 0.8413

(3)P\left ( 9.9< \overline{X} < 10.1\right ) =P\left ( \frac{9.9-10}{0.1} < \frac{\overline{X}-10}{0.1}< \frac{10.1-10}{0.1}\right ) = P\left ( Z-\frac{10.1-10}{0.1} \right ) - P\left ( Z-\frac{9.9-10}{0.1} \right ) = P\left ( Z< 1 \right ) - P \left ( Z< -1 \right ) = 2P\left ( Z< 1 \right ) -1 = 2\phi \left ( 1 \right ) -1 = 2 \times 0.8413 -1 = 0.6826


思考题

1. 什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数?
统计量:设1,2,···,是从总体 总抽取的容量为 的一个样本,如果由此样本构造一个函数 (1,2,···,),不依赖于任何未知参数,则称函数 (1,2,···,)是一个统计量。
由样本构造具体的统计量,实际上是对样本信息进行加工并集中到统计量的取值上,便于通过统计量推断总体参数。由于样本已经抽出,故统计量总是知道的,因此统计量不含有任何未知参数。


2. 简述 2分布、 分布、 F 分布及正态分布之间的关系。
正态分布:Z= \frac{X-\mu }{\sigma } ~ N\left (0,1 \right ),则 ~(,\sigma ^{2})

2分布:设随机变量 1,2,···,相互独立,且 (=1,2,···,)服从标准正态分布(0,1),则他们的平方和 Σ2=1服从自由度为 的 2分布。

分布:设随机变量 ~( Y ~ \chi ^{2}\left ( n \right ),且 与 独立,则 t = \frac{X}{\sqrt{\frac{Y}{n}}} 其分布称为 分布。

分布:设随机变量 与 相互独立,且 与 分别服从自由度为 和 的 2分布,则 X = \frac{Y/m}{Z/n}

即 =//=~(,)

3. 什么是抽样分布?
在总体的分布类型已知时,若对任一自然数 ,都能导出统计量 =(1,2,···,)的分布的数学表达式,这种分布称为精确的抽样分布。

4. 简述中心极限定理的意义。
中心极限定理:设从均值为 ,方差为 \sigma ^{2} 的一个总体中抽取容量为 的样本,当 充分大时,样本均值的抽样分布近似服从均值为 ,方差为 \frac{\sigma ^{2}}{n}的正态分布。

意义:是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。

你可能感兴趣的:(数据分析)