例1: 某高校针对学生对教学管理是否满意,在全体学生中展开调查,全体学生是总体,是有限总体,只关心“对教学管理满意或不满意”这个指标值,通常赋值 ( 0 , 1 ) (0, 1) (0,1)。
例2: 某药厂研究某种药物在人体中的吸收情况,总体是全体国民,只关心国民服药的吸收量值,是有限总体,但容量很大,按无限总体处理。
例3: 考察渤海水质有机磷污染情况,渤海海水是总体,只关心其中的有机磷含量值,是无限总体。总体是随机变量,一般地,可以认为:总体 ⇔ X \Leftrightarrow X ⇔X。
( X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 独立同分布)
例1: 给一个理想化总体,抽取(放回)样本来推断总体,观察推断效果某棵树每年产果10个,1等果3个每个价格8元,2等果4个每个价格6元,3等果2个每个价格2元,次果1个每个价格0元,考察果子收益情况,每次抽取两个果,如何抽才能得到简单随机样本?列出所有简单随机抽样样本值,并列出下列指标值:
总体: 树上的果子。
总体容量: 10。
总体分布:
0 2 6 8 1 10 \frac{1}{10} 101 2 10 \frac{2}{10} 102 4 10 \frac{4}{10} 104 3 10 \frac{3}{10} 103 期望: E ( X ) = 4 10 + 24 10 + 24 10 = 5.2 E(X)=\frac{4}{10} + \frac{24}{10} + \frac{24}{10}=5.2 E(X)=104+1024+1024=5.2
方差: D ( X ) = 1 10 ( 0 − 5.2 ) 2 + 2 10 ( 2 − 5.2 ) 2 + 4 10 ( 6 − 5.2 ) 2 + 3 10 ( 8 − 5.2 ) 2 = 7.36 D(X)=\frac{1}{10} (0-5.2)^2 + \frac{2}{10} (2-5.2)^2 + \frac{4}{10} (6-5.2)^2 + \frac{3}{10}(8-5.2)^2 = 7.36 D(X)=101(0−5.2)2+102(2−5.2)2+104(6−5.2)2+103(8−5.2)2=7.36
简单随机样本:
每次抽样得到观察值 ( x 1 , x 2 ) (x_1, x_2) (x1,x2), x 1 x_1 x1 是随机变量 X 1 X_1 X1的一个随机取值, x 2 x_2 x2 是随机变量 X 2 X_2 X2的一个随机取值, X 1 X_1 X1与 X 2 X_2 X2相互独立并与总体 X X X同分布, ( X 1 , X 2 ) (X_1, X_2) (X1,X2) 构成二维随机变量。
样本值:
例1: X ∼ B ( 0 , 1 ) , P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 X \sim B(0, 1), \quad P(X=k)=p^k(1-p)^{1-k}, \quad k=0, 1 X∼B(0,1),P(X=k)=pk(1−p)1−k,k=0,1
答: 样本的联合分布列为:
P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ) = p x 1 ( 1 − p ) 1 − x 1 ⋯ p x n ( 1 − p ) 1 − x n P(X_1=x_1, X_2=x_2, \cdots , X_n=x_n) =p^{x_1}(1-p)^{1-x_1} \cdots p^{x_n}(1-p)^{1-x_n} P(X1=x1,X2=x2,⋯,Xn=xn)=px1(1−p)1−x1⋯pxn(1−p)1−xn P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ) = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i P(X_1=x_1, X_2=x_2, \cdots , X_n=x_n) =p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} P(X1=x1,X2=x2,⋯,Xn=xn)=p∑i=1nxi(1−p)n−∑i=1nxi
例2:
X ∼ N ( μ , σ 2 ) , f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ X \sim N(\mu , \sigma ^2), \quad f(x)=\frac{1}{\sqrt{2 \pi} \sigma}e^{-\frac{(x-\mu)^2}{2 \sigma ^2}}, \quad -\infty < x < +\infty X∼N(μ,σ2),f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞
答: 样本的联合分布密度为:
f ( x 1 , x 2 , ⋯ , x n ) = 1 2 π σ e − ( x 1 − μ ) 2 2 σ 2 ⋯ 1 2 π σ e − ( x n − μ ) 2 2 σ 2 = 1 ( 2 π σ ) n e − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 f(x_1, x_2, \cdots , x_n)=\frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2 \sigma ^2}} \cdots \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x_n-\mu)^2}{2 \sigma ^2}} = \frac{1}{(\sqrt{2 \pi}\sigma)^n}e^{-\frac{1}{2 \sigma ^2} \sum_{i=1}^n(x_i - \mu)^2} f(x1,x2,⋯,xn)=2πσ1e−2σ2(x1−μ)2⋯2πσ1e−2σ2(xn−μ)2=(2πσ)n1e−2σ21∑i=1n(xi−μ)2
概念: ( X 1 , X 2 , ⋯ , X n ) (X_1, X_2, \cdots , X_n) (X1,X2,⋯,Xn) 为总体 X X X 的样本, T = T ( X 1 , X 2 , ⋯ , X n ) T = T(X_1, X_2, \cdots , X_n) T=T(X1,X2,⋯,Xn) 是样本函数,且不含任何未知参数,称 T T T 为统计量。
( X 1 , X 2 , ⋯ , X n ) ⟹ ( X ( 1 ) , X ( 2 ) , ⋯ , X ( n ) ) (X_1, X_2, \cdots , X_n) \quad \Longrightarrow \quad (X_{(1)}, X_{(2)}, \cdots , X_{(n)}) (X1,X2,⋯,Xn)⟹(X(1),X(2),⋯,X(n))
总体分布 F ( x ) F(x) F(x) 未知, X ( 1 ) , X ( 2 ) , ⋯ , X ( n ) X_{(1)}, X_{(2)}, \cdots , X_{(n)} X(1),X(2),⋯,X(n) 为样本顺序统计量,当固定一组样本值 x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) x_{(1)}, x_{(2)}, \cdots , x_{(n)} x(1),x(2),⋯,x(n),则称如下函数为总体 X X X 的经验分布函数:
F n ( x ) = { 0 , x < x ( 1 ) k n , x ( k ) ≤ x < x ( k + 1 ) 1 , x ≥ x ( n ) F_n(x)=\begin{cases}0, \qquad x
例5:
已知总体 X ∼ B ( 4 , 0.1 ) X\sim B(4, 0.1) X∼B(4,0.1) 的10个样本值: ( 0 , 1 , 0 , 3 , 0 , 2 , 0 , 4 , 0 , 1 ) (0, 1, 0, 3, 0, 2, 0, 4, 0, 1) (0,1,0,3,0,2,0,4,0,1),求其经验分布函数
答:
该样本的顺序统计量为: ( 0 , 0 , 0 , 0 , 0 , 1 , 1 , 2 , 3 , 4 ) (0, 0, 0, 0, 0, 1, 1, 2, 3, 4) (0,0,0,0,0,1,1,2,3,4)
各样本值出现的概率为:
[ 0 1 2 3 4 5 10 2 10 1 10 1 10 1 10 ] \begin{bmatrix}0 & 1 & 2 & 3 & 4 \\ \frac{5}{10} & \frac{2}{10} & \frac{1}{10} & \frac{1}{10} & \frac{1}{10}\end{bmatrix} [01051102210131014101]
故,
F n ( x ) = { 0 x < 0 5 10 0 ≤ x < 1 7 10 1 ≤ x < 2 8 10 2 ≤ x < 3 9 10 3 ≤ x < 4 1 x ≥ 4 F_n(x)=\begin{cases}0 \qquad x<0 \\ \frac{5}{10} \qquad 0 \leq x<1 \\ \frac{7}{10} \qquad 1 \leq x<2 \\ \frac{8}{10} \qquad 2 \leq x<3 \\ \frac{9}{10} \qquad 3 \leq x<4 \\ 1 \qquad x \geq 4 \end{cases} Fn(x)=⎩ ⎨ ⎧0x<01050≤x<11071≤x<21082≤x<31093≤x<41x≥4
显然 F n ( − ∞ ) = 0 , F n ( + ∞ ) = 1 , 0 ≤ F n ( x ) ≤ 1 F_n(-\infty)=0, \quad F_n(+\infty)=1, \quad 0 \leq F_n(x) \leq 1 Fn(−∞)=0,Fn(+∞)=1,0≤Fn(x)≤1,且 F n ( x ) F_n(x) Fn(x) 是右连续单调不减函数,满足分布函数的性质,称 F n ( x ) F_n(x) Fn(x) 为经验(样本)分布函数。
例6:
设总体 X ∼ B ( 1 , p ) X\sim B(1, p) X∼B(1,p),设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 是样本,样本值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots , x_n x1,x2,⋯,xn,证明统计量 T ( X 1 , X 2 , ⋯ , X n ) = ∑ i = 1 n X i T(X_1, X_2, \cdots , X_n)=\sum_{i=1}^nX_i T(X1,X2,⋯,Xn)=∑i=1nXi 是参数 p p p 的充分统计量。
证明:
显然 T ( X 1 , X 2 , ⋯ , X n ) = ∑ i = 1 n X i ∼ B ( n , p ) T(X_1, X_2, \cdots , X_n)=\sum_{i=1}^nX_i \sim B(n,p) T(X1,X2,⋯,Xn)=∑i=1nXi∼B(n,p)
P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ∣ ∑ i = 1 n X i = t ) = P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n , ∑ i = 1 n X i = t ) P ( ∑ i = 1 n X i = t ) = p x 1 ( 1 − p ) 1 − x 1 p x 2 ( 1 − p ) 1 − x 2 ⋯ p x n ( 1 − p ) 1 − x n C n t p t ( 1 − p ) n − t = p ∑ i = 1 n X i ( 1 − p ) n − ∑ i = 1 n X i C n t p t ( 1 − p ) n − t = p t ( 1 − p ) n − t C n t p t ( 1 − p ) n − t = 1 C n t ( 与 p 无关 ) \begin{aligned}P(X_1=x_1, X_2&=x_2, \cdots , X_n=x_n | \sum_{i=1}^nX_i=t) \\ &=\frac{P(X_1=x_1, X_2=x_2, \cdots , X_n=x_n , \sum_{i=1}^nX_i=t)}{P(\sum_{i=1}^nX_i=t)} \\ &=\frac{p^{x_1}(1-p)^{1-x_1}p^{x_2}(1-p)^{1-x_2} \cdots p^{x_n}(1-p)^{1-x_n}}{C_n^tp^t(1-p)^{n-t}} \\ &=\frac{p^{\sum_{i=1}^nX_i} \; (1-p)^{n-\sum_{i=1}^nX_i}}{C_n^tp^t(1-p)^{n-t}} \\ &=\frac{p^t(1-p)^{n-t}}{C_n^tp^t(1-p)^{n-t}} \\ &=\frac{1}{C_n^t} \quad (与p无关)\end{aligned} P(X1=x1,X2=x2,⋯,Xn=xn∣i=1∑nXi=t)=P(∑i=1nXi=t)P(X1=x1,X2=x2,⋯,Xn=xn,∑i=1nXi=t)=Cntpt(1−p)n−tpx1(1−p)1−x1px2(1−p)1−x2⋯pxn(1−p)1−xn=Cntpt(1−p)n−tp∑i=1nXi(1−p)n−∑i=1nXi=Cntpt(1−p)n−tpt(1−p)n−t=Cnt1(与p无关) 因此,统计量 T ( X 1 , X 2 , ⋯ , X n ) = ∑ i = 1 n X i T(X_1, X_2, \cdots , X_n)=\sum_{i=1}^nX_i T(X1,X2,⋯,Xn)=∑i=1nXi 是参数 p p p 的充分统计量。
例10:
设总体 X ∼ N ( μ , σ 2 ) , θ = ( μ , σ 2 ) X \sim N(\mu, \sigma^2), \; \theta=(\mu, \sigma^2) X∼N(μ,σ2),θ=(μ,σ2),证 T = ( ∑ i = 1 n x i , ∑ i = 1 n x i 2 ) T=(\sum_{i=1}^nx_i,\sum_{i=1}^nx_i^2) T=(∑i=1nxi,∑i=1nxi2) 是 θ \theta θ 的充分统计量
证明:
X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn为样本,联合密度为:
f ( x 1 , x 2 , ⋯ , x n ) = ( 1 2 π σ ) n e − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 = ( 1 2 π σ ) n e − 1 2 σ 2 { ∑ i = 1 n x i 2 − 2 μ ∑ i = 1 n x i + n μ 2 } = ( 1 2 π σ ) n e − n μ 2 2 σ 2 e − 1 2 σ 2 { ∑ i = 1 n x i 2 − 2 μ ∑ i = 1 n x i } \begin{aligned}f(x_1, x_2, \cdots, x_n)&=(\frac{1}{\sqrt{2 \pi}\sigma})^ne^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2} \\ &=(\frac{1}{\sqrt{2 \pi}\sigma})^ne^{-\frac{1}{2\sigma^2}\{ \sum_{i=1}^nx_i^2 - 2\mu \sum_{i=1}^nx_i + n\mu^2 \}} \\ &=(\frac{1}{\sqrt{2 \pi}\sigma})^ne^{-\frac{n\mu^2}{2\sigma^2}}e^{-\frac{1}{2\sigma^2}\{ \sum_{i=1}^nx_i^2-2\mu \sum_{i=1}^n x_i \}}\end{aligned} f(x1,x2,⋯,xn)=(2πσ1)ne−2σ21∑i=1n(xi−μ)2=(2πσ1)ne−2σ21{∑i=1nxi2−2μ∑i=1nxi+nμ2}=(2πσ1)ne−2σ2nμ2e−2σ21{∑i=1nxi2−2μ∑i=1nxi} g ( t 1 , t 2 , θ ) = ( 1 2 π σ ) n e − n μ 2 2 σ 2 e − 1 2 σ 2 { t 2 − 2 μ t 1 } , h ( x 1 , x 2 , ⋯ , x n ) = 1 g(t_1, t_2, \theta)=(\frac{1}{\sqrt{2 \pi}\sigma})^ne^{-\frac{n\mu^2}{2\sigma^2}}e^{-\frac{1}{2\sigma^2}\{ t_2 - 2\mu t_1 \}}, \qquad h(x_1, x_2, \cdots, x_n)=1 g(t1,t2,θ)=(2πσ1)ne−2σ2nμ2e−2σ21{t2−2μt1},h(x1,x2,⋯,xn)=1
T = ( ∑ i = 1 n x i , ∑ i = 1 n x i 2 ) T=(\sum_{i=1}^nx_i,\sum_{i=1}^nx_i^2) T=(∑i=1nxi,∑i=1nxi2) 是 θ = ( μ , σ 2 ) \theta=(\mu,\sigma^2) θ=(μ,σ2) 的充分统计量
下一篇:统计量的分布、正态总体的抽样分布