统计量及其分布

统计量及其分布

这章的核心是认识经验分布函数,统计量以及三大抽样分布,这些构成了数理统计的基础。数理统计围绕着总体和样本,希望通过了解样本的情况,提出相应的统计量,并通过了解统计量的分布,也即抽样分布来估计总体参数。
经验分布函数参考经验分布函数与格里纹科定理

统计量

统计量是什么?从定义上说,统计量是不含未知参数的样本函数。统计量是一个函数,是对样本信息的一个精炼提取,以此反映总体情况的工具。我们通常记统计量为 T=T(x1,x2...xn) T = T ( x 1 , x 2 . . . x n )
常用的统计量有,样本均值,样本方差,样本峰度,样本偏度。
对于统计量的分布,称为抽样分布。通过了解抽样分布可以得到总体参数的点估计与区间估计,达到样本估计总体的目的。

充分统计量

统计量中有一个重要的概念是充分统计量,从数学上讲,样本的条件分布与总体参数无关,则T即为充分统计量,即

p(x|T;θ)=f(X|T(x1,x2...xn)=t) p ( x | T ; θ ) = f ( X | T ( x 1 , x 2 . . . x n ) = t )

通俗来讲意即我们定义的统计量T能够涵盖样本的所有信息,由此可导出 充分性原则
对总体参数的估计都应基于充分统计量,并且UMVUE(一致最小方差无偏估计)一定可表示为充分统计量的函数
通常来说,充分统计量即用到了全部样本信息的统计量,如样本均值(是所有样本值的平均),样本的次序统计量( x(i) x ( i ) 是 将 所 有 样 本 排 序 后 得 到 的 ),不难理解这样的统计量能概括所有的样本信息,因此更适合做统计推断。关于UMVUE将在以后的微博阐述。

因子分解定理

要是每次都通过求样本的条件分布来判断充分统计量,是非常困难且计算量大的。这里给出因子分解定理,将能帮助判断是否是充分统计量:

设总体密度函数为 f(x;θ),x1......xnT(x1......xn)g(t,θ)h(x1......xn)使θx1......xnf(x1......xn)=g(T(x1......xn),θ)×h(x1......xn) f ( x ; θ ) , x 1 . . . . . . x n 是 样 本 , T ( x 1 . . . . . . x n ) 为 充 分 统 计 量 的 充 要 条 件 是 : 存 在 两 个 函 数 g ( t , θ ) 和 h ( x 1 . . . . . . x n ) 使 得 对 于 任 意 的 θ 和 任 意 一 组 x 1 . . . . . . x n , 有 f ( x 1 . . . . . . x n ) = g ( T ( x 1 . . . . . . x n ) , θ ) × h ( x 1 . . . . . . x n )
接下来判断充分统计量即找出相应的g和h了。举个例子:

假设总体服从指数分布 Exp(λ) E x p ( λ ) ,密度函数为 f(x;θ)=λeλx f ( x ; θ ) = λ e − λ x ,则 f(x1......xn)=λneλni=1xi f ( x 1 . . . . . . x n ) = λ n e − λ ∑ i = 1 n x i
T(x1......xn)=x¯,g(T,λ)=λneλnx¯,h(x1......xn)=1 T ( x 1 . . . . . . x n ) = x ¯ , g ( T , λ ) = λ n e − λ n x ¯ , h ( x 1 . . . . . . x n ) = 1
则易得 f(x1......xn)=g(T(x1......xn),λ)×h(x1......xn) f ( x 1 . . . . . . x n ) = g ( T ( x 1 . . . . . . x n ) , λ ) × h ( x 1 . . . . . . x n )
因此 x¯ x ¯ 是充分统计量。
通过这种方式,判断充分统计量变得容易的多。


三大抽样分布

下面将阐述统计学中三大重要的抽样分布卡方分布,F分布与t分布,基于这三种分布可得到许多假设检验方式。

卡方分布

X1......Xn X 1 . . . . . . X n 是来自总体N(0,1)的独立同分布样本,称 i=1nX2i ∑ i = 1 n X i 2 的分布为自由度为n的 χ2 χ 2 分布,记为 χ2 χ 2 (n).

χ2(n)Ga(n2,12) χ 2 ( n ) 即 G a ( n 2 , 1 2 ) ,因此均值为n,方差为2n

F分布

设X ~ χ2(n) χ 2 ( n ) ,Y ~ χ2(m) χ 2 ( m ) 相互独立,称 X/nY/m X / n Y / m 服从F分布,记为F(n,m)

由此可知,F分布由两个服从卡方分布的随机变量构造而来。

t分布

设X ~ N(0,1),Y ~ χ2(n) χ 2 ( n ) 相互独立,称 XY/n X Y / n 服从t分布,记为t(n)

当n=1时,t分布为柯西分布,n>1时期望为0,n>2时方差有限且等于 nn2 n n − 2 ,因此可以发现t分布是对称的,且当n-> + + ∞ 时,方差趋于1,t分布逐渐趋于标准正态分布。

你可能感兴趣的:(数理统计)