在一本统计学课本中见到一个熟悉的式子:
( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1) σ2(n−1)s2∼χ2(n−1)
其中 s s s 为样本的标准差。该式子的含义是 (n-1)*样本方差与总体方差之比服从自由度为 n-1 的卡方分布。而且, X ‾ \overline{X} X 与 S 2 S^2 S2 相互独立。
一直以为这个式子很好证,自己试着没证出来。最后查了查,其实并不好证,要利用到不熟悉的高深性质。
证明:
( n − 1 ) s 2 σ 2 = ∑ i = 1 n ( x i − x ‾ ) 2 σ 2 = ∑ i = 1 n ( x i σ − x ‾ σ ) 2 = ∑ i = 1 n ( x i − μ σ − x ‾ − μ σ ) 2 = ∑ i = 1 n ( Z i − Z ‾ ) 2 = ∑ i = 1 n Z i 2 − n Z ‾ 2 \begin{aligned} \frac{(n-1)s^2}{\sigma^2}=&\frac{\sum_{i=1}^n (x_i-\overline{x})^2}{\sigma^2}\\ =&\sum_{i=1}^n (\frac{x_i}{\sigma}-\frac{\overline{x}}{\sigma})^2 \\ =&\sum_{i=1}^n (\frac{x_i-\mu}{\sigma}-\frac{\overline{x}-\mu}{\sigma})^2 \\ =&\sum_{i=1}^n (Z_i-\overline{Z})^2 \\ =& \sum_{i=1}^n Z_i ^2 -n\overline{Z}^2 \end{aligned} σ2(n−1)s2=====σ2∑i=1n(xi−x)2i=1∑n(σxi−σx)2i=1∑n(σxi−μ−σx−μ)2i=1∑n(Zi−Z)2i=1∑nZi2−nZ2
其中 Z i Z_i Zi 表示一个标准正态分布变量。下面利用 “一组相互独立的标准正态随机变量经过正交变换后仍然是相互独立的标准正态随机变量”的性质。
构造一个正交矩阵 A A A,对 Z i Z_i Zi 做正交变换,即 Y = A Z Y=AZ Y=AZ,其中 Z = ( Z 1 , Z 2 , … , Z n ) T Z=(Z_1, Z_2,\dots, Z_n)^T Z=(Z1,Z2,…,Zn)T, Y = ( Y 1 , Y 2 , … , Y n ) T Y=(Y_1, Y_2, \dots, Y_n)^T Y=(Y1,Y2,…,Yn)T.
∑ Y i 2 = Y T Y = Z T A T A Z = Z T Z = ∑ Z i 2 \sum Y_i^2=Y^TY=Z^TA^TAZ=Z^TZ=\sum Z_i^2 ∑Yi2=YTY=ZTATAZ=ZTZ=∑Zi2
令 A 1 = ( 1 n , 1 n … , 1 n ) A_1=(\frac{1}{\sqrt{n}},\frac{1}{\sqrt{n}}\dots,\frac{1}{\sqrt{n}}) A1=(n1,n1…,n1),(其他 A i A_i Ai 的值不用管,只要满足正交矩阵即可),则
n Z ‾ 2 = ( Z 1 + Z 2 + ⋯ + Z n ) 2 n = ( A 1 Z ) 2 = Y 1 2 n\overline{Z}^2=\frac{(Z_1+Z_2+\dots+Z_n)^2}{n}=(A_1Z)^2=Y_1^2 nZ2=n(Z1+Z2+⋯+Zn)2=(A1Z)2=Y12
所以:
( n − 1 ) s 2 σ 2 = ∑ i = 1 n Z i 2 − n Z ‾ 2 = ∑ Y i 2 − Y 1 2 = ∑ i = 2 n Y i 2 = χ 2 ( n − 1 ) \begin{aligned} \frac{(n-1)s^2}{\sigma^2}=& \sum_{i=1}^n Z_i ^2 -n\overline{Z}^2 \\ =&\sum Y_i^2-Y_1^2=\sum_{i=2}^n Y_i^2=\chi^2(n-1) \end{aligned} σ2(n−1)s2==i=1∑nZi2−nZ2∑Yi2−Y12=i=2∑nYi2=χ2(n−1)
只要该性质成立,则上面结论就成立了。下面证明这个性质成立,设 a i , j a_{i,j} ai,j 为正交矩阵 A A A 中的元素,
E ( Y i ) = ∑ j = 1 n a i j Z j = 0 E(Y_i)=\sum_{j=1}^n a_{ij} Z_j=0 E(Yi)=j=1∑naijZj=0
E ( Y i 2 ) = E ( ∑ j = 1 n a i j Z j ) 2 = a i , 1 2 E ( Z 1 2 ) + ⋯ + a i , n 2 E ( Z n 2 ) = a i , 1 2 + ⋯ + a i , n 2 = 1 E(Y_i^2)=E(\sum_{j=1}^n a_{ij} Z_j)^2=a_{i,1}^2E(Z_1^2)+\dots+a_{i,n}^2E(Z_n^2)=a_{i,1}^2+\dots+a_{i,n}^2=1 E(Yi2)=E(j=1∑naijZj)2=ai,12E(Z12)+⋯+ai,n2E(Zn2)=ai,12+⋯+ai,n2=1
i i i 不等于 j j j 时,
C o v ( Y i , Y j ) = E ( Y i Y j ) − E ( Y i ) E ( Y j ) = E ( Y i Y j ) = ∑ k = 1 n a i , k 2 a j , k 2 = 0 \begin{aligned} Cov(Y_i, Y_j)=&E(Y_i Y_j)-E(Y_i)E(Y_j) \\ =&E(Y_i Y_j) \\ =&\sum_{k=1}^{n} a_{i,k}^2a_{j,k}^2=0 \end{aligned} Cov(Yi,Yj)===E(YiYj)−E(Yi)E(Yj)E(YiYj)k=1∑nai,k2aj,k2=0
上面利用了正交矩阵的性质。因此性质 “一组相互独立的标准正态随机变量经过正交变换后仍然是相互独立的标准正态随机变量” 成立,原结论也成立。
□ \square □
其实利用一个定理 Cochran’s theorem,可以推出
∑ i = 1 n ( x i − x ‾ ) 2 ∼ σ 2 χ 2 ( n − 1 ) \sum_{i=1}^n (x_i-\overline{x})^2\sim \sigma^2\chi^2(n-1) i=1∑n(xi−x)2∼σ2χ2(n−1)
就可以一步得出了,不过这个定理不太好理解。
利用这个性质,就可以做 t 检验了,因为:
X ‾ − μ S / n ∼ t ( n − 1 ) \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) S/nX−μ∼t(n−1)
(2)对于相互独立性,由于 S 2 S^2 S2 只与 Y 2 , Y 3 , … , Y n Y_2, Y_3, \dots, Y_n Y2,Y3,…,Yn 有关,而 X ‾ − μ σ = Z ‾ = 1 n Y 1 \frac{\overline{X}-\mu}{\sigma}=\overline{Z}=\frac{1}{\sqrt{n}}Y_1 σX−μ=Z=n1Y1,可见 X ‾ \overline{X} X 只与 Y 1 Y_1 Y1 有关,由 Y 1 , Y 2 , … , Y n Y_1, Y_2, \dots, Y_n Y1,Y2,…,Yn 的独立性,知道 X ‾ \overline{X} X 与 S 2 S^2 S2 相互独立。