如果有一点点的统计学基础都知道,t分布和 χ 2 \chi^2 χ2分布有着密不可分的联系,t随机变量的构造是基于 χ 2 \chi^2 χ2随机变量的。
设随机变量 X 1 X_1 X1与 X 2 X_2 X2独立, X 1 ∼ N ( 0 , 1 ) X_1\sim N(0,1) X1∼N(0,1), X 2 ∼ χ 2 ( n ) X_2\sim \chi^2(n) X2∼χ2(n), 则 t = X 1 X 2 / n ∼ t ( n ) t=\frac{X_1}{\sqrt{X_2/n}}\sim t(n) t=X2/nX1∼t(n).
已经知道 χ 2 \chi^2 χ2分布是 G a m m a Gamma Gamma分布的特例,那么 t t t 的密度函数一定也是与 Γ \Gamma Γ函数密切相关的,通过令 t 2 = F ( 1 , n ) t^2=F(1,n) t2=F(1,n)以及根据 t t t分布的对称性,可以求出 t t t 的密度函数, 求 t t t 密度函数的过程如下:
将 P ( 0 < t < y ) = 1 2 P ( t 2 < y 2 ) = 1 2 P ( F < y 2 ) P(0<t<y)=\frac{1}{2}P({t^2}<{y^2})=\frac{1}{2}P(F<y^2) P(0<t<y)=21P(t2<y2)=21P(F<y2)两边求导,得 f t ( y ) = y f F ( y 2 ) . f_t(y)=yf_F(y^2). ft(y)=yfF(y2).
t t t分布的峰比标准正态分布略低一些,尾部比标准正态分布的大一些。是由英国统计学家Gosset发现,由Fisher完善的。当数据量很大时,根据中心极限定理,总是可以将统计量归结到正态分布。但当数据量较小时,就与正态分布产生偏差。Gosset发现 n ( x ‾ − μ ) s \frac{\sqrt n(\overline{x}-\mu)}{s} sn(x−μ)并不是完全服从正态分布的,而是服从一种全新的分布 – t t t分布。由于上面已经介绍了 t t t分布的定义,下面证明统计量 n ( x ‾ − μ ) s \frac{\sqrt n(\overline{x}-\mu)}{s} sn(x−μ)服从 t t t分布。
设 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn是来自总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的样本, s 2 s^2 s2是样本标准差,则有: ( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) . \frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1). σ2(n−1)s2∼χ2(n−1).
构造一个矩阵 A A A,将 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)正交变换为 ( y 1 , y 2 , . . . , y n ) (y_1,y_2,...,y_n) (y1,y2,...,yn),即:
Y = ( y 1 , y 2 , . . . , y n ) ′ = A ( x 1 , x 2 , . . . , x n ) ′ = A X Y=(y_1,y_2,...,y_n)'=A(x_1,x_2,...,x_n)'=AX Y=(y1,y2,...,yn)′=A(x1,x2,...,xn)′=AX
A = ( 1 n 1 n 1 n . . . 1 n 1 2 ⋅ 1 − 1 2 ⋅ 1 0 . . . 0 1 3 ⋅ 2 1 3 ⋅ 2 − 2 3 ⋅ 2 . . . 0 ⋮ ⋮ ⋮ ⋮ ⋮ 1 n ⋅ ( n − 1 ) 1 n ⋅ ( n − 1 ) 1 n ⋅ ( n − 1 ) . . . − n − 1 n ⋅ ( n − 1 ) ) n × n A =\left( \begin{array}{} \frac{1}{\sqrt n}& \frac{1}{\sqrt n}& \frac{1}{\sqrt n}&...&\frac{1}{\sqrt n} \\ \frac{1}{\sqrt{2\cdot1}}& -\frac{1}{\sqrt{2\cdot1}} & 0&...&0 \\ \frac{1}{\sqrt{3\cdot2}}& \frac{1}{\sqrt{3\cdot2}} &- \frac{2}{\sqrt{3\cdot2}}&...&0\\ \vdots&\vdots&\vdots&\vdots&\vdots\\ \frac{1}{\sqrt{n\cdot(n-1)}}&\frac{1}{\sqrt{n\cdot(n-1)}}&\frac{1}{\sqrt{n\cdot(n-1)}}&...&-\frac{n-1}{\sqrt{n\cdot(n-1)}}\\ \end{array} \right)_{n\times n} A=⎝⎜⎜⎜⎜⎜⎜⎛n12⋅113⋅21⋮n⋅(n−1)1n1−2⋅113⋅21⋮n⋅(n−1)1n10−3⋅22⋮n⋅(n−1)1.........⋮...n100⋮−n⋅(n−1)n−1⎠⎟⎟⎟⎟⎟⎟⎞n×n
则有 y 1 = 1 n ∑ i = 0 n x i y_1=\frac{1}{\sqrt{n}}\sum\limits_{i=0}^nx_i y1=n1i=0∑nxi,即 x ‾ = 1 n y 1 \overline{x}=\frac{1}{\sqrt{n}}y_1 x=n1y1,所以有:
( n − 1 ) s 2 = ∑ i = 0 n ( x i − x ‾ ) 2 = ∑ i = 1 n x i 2 − n x ‾ 2 = X ′ X − y 1 2 (n-1)s^2=\sum\limits_{i=0}^n(x_i-\overline{x})^2 =\sum\limits_{i=1}^nx_i^2-n\overline{x}^2 =X'X-y_1^2 (n−1)s2=i=0∑n(xi−x)2=i=1∑nxi2−nx2=X′X−y12 = X ′ A ′ A X − y 1 2 = Y ′ Y − y 1 2 = ∑ i = 2 n y i 2 ~~~~~~~=X'A'AX-y_1^2 =Y'Y-y_1^2 =\sum\limits_{i=2}^ny_i^2 =X′A′AX−y12=Y′Y−y12=i=2∑nyi2
由于 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn均服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2), y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn是 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn的线性组合,所以 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn也服从正态分布,其中 y 1 ∼ N ( n μ , σ 2 ) y_1\sim N(\sqrt{n}\mu,\sigma^2) y1∼N(nμ,σ2), y 2 , . . . , y n ∼ N ( 0 , σ 2 ) y_2,...,y_n\sim N(0,\sigma^2) y2,...,yn∼N(0,σ2), 根据多元正态分布的密度函数表达式容易得出 y 2 , . . . , y n y_2,...,y_n y2,...,yn也是互相独立的。可得:
( n − 1 ) s 2 σ 2 = ∑ i = 2 n ( y i σ ) 2 ∼ χ 2 ( n − 1 ) . \frac{(n-1)s^2}{\sigma^2}=\sum\limits_{i=2}^n(\frac{y_i}{\sigma})^2\sim\chi^2(n-1). σ2(n−1)s2=i=2∑n(σyi)2∼χ2(n−1).
又由于 x ‾ \overline{x} x和 s 2 s^2 s2独立 ( x ‾ \overline{x} x只与 y 1 y_1 y1有关, s 2 s^2 s2只与 y 2 , . . . , y n y_2,...,y_n y2,...,yn有关),则:
n ( x ‾ − μ ) s = x ‾ − μ σ / n ( n − 1 ) s 2 / σ 2 n − 1 ∼ t ( n − 1 ) \frac{\sqrt n(\overline{x}-\mu)}{s}=\frac{{\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}}} {\sqrt{\frac{{(n-1)s^2}/{\sigma^2}}{n-1}}}\sim t(n-1) sn(x−μ)=n−1(n−1)s2/σ2σ/nx−μ∼t(n−1)
证明完毕。
在正态总体的参数假设检验中,t检验是经常使用的一种检验方法,使用t检验可以
下面用两独立样本均数的比较做例子解释一下统计量 n ( x ‾ − μ ) s \frac{\sqrt n(\overline{x}-\mu)}{s} sn(x−μ)的应用。
口服多糖铁复合物是治疗肾性贫血的传统方法,为研究右旋糖酐氢氧化铁注射液在治疗肾性贫血的效果,选择血红蛋白水平相似的患者随机分为口服多糖铁复合物组和静脉注射右旋糖酐氢氧化铁组,每组分别 n 1 , n 2 n_1,n_2 n1,n2个人,在接受治疗后,收集每个患者血红蛋白含量的增值。口服多糖铁复合物组患者的血红蛋白含量的增值记为 ( x 1 , x 2 , . . . , x n 1 x_1,x_2,...,x_{n_1} x1,x2,...,xn1);静脉注射右旋糖酐氢氧化铁组患者的血红蛋白含量的增值记为 ( y 1 , y 2 , . . . , y n 2 ) (y_1,y_2,...,y_{n_2}) (y1,y2,...,yn2)。
可以把( x 1 , x 2 , . . . , x n 1 x_1,x_2,...,x_{n_1} x1,x2,...,xn1)看作来自总体 X X X,把 ( y 1 , y 2 , . . . , y n 2 ) (y_1,y_2,...,y_{n_2}) (y1,y2,...,yn2)看作来自总体 Y Y Y, 即:
X ∼ N ( μ 1 , σ 2 ) Y ∼ N ( μ 2 , σ 2 ) X\sim N(\mu_1,\sigma^2)~~~~~Y\sim N(\mu_2,\sigma^2) X∼N(μ1,σ2) Y∼N(μ2,σ2)
从而有:
x ‾ ∼ N ( μ 1 , σ 2 n 1 ) y ‾ ∼ N ( μ 2 , σ 2 n 2 ) \overline{x}\sim N(\mu_1,\frac{\sigma^2}{n_1})~~~~~~~\overline{y}\sim N(\mu_2,\frac{\sigma^2}{n_2}) x∼N(μ1,n1σ2) y∼N(μ2,n2σ2)
由于服从正态分布的随机变量的线性组合也服从正态分布,所以有:
x ‾ − y ‾ ∼ N ( μ 1 − μ 2 , σ 2 n 1 + σ 2 n 2 ) \overline{x}-\overline{y}\sim N(\mu_1-\mu_2,\frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2}) x−y∼N(μ1−μ2,n1σ2+n2σ2)
即:
x ‾ − y ‾ − ( μ 1 − μ 2 ) σ 1 n 1 + 1 n 2 ∼ N ( 0 , 1 ) \frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim N(0,1) σn11+n21x−y−(μ1−μ2)∼N(0,1)
构造统计量 n ( x ‾ − μ ) s \frac{\sqrt n(\overline{x}-\mu)}{s} sn(x−μ):
( n 1 − 1 ) s 1 2 σ 2 + ( n 2 − 1 ) s 2 2 σ 2 ∼ χ 2 ( n 1 + n 2 − 2 ) \frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}\sim\chi^2(n_1+n_2-2) σ2(n1−1)s12+σ2(n2−1)s22∼χ2(n1+n2−2)
x ‾ − y ‾ − ( μ 1 − μ 2 ) σ 1 n 1 + 1 n 2 ( n 1 − 1 ) s 1 2 σ 2 + ( n 2 − 1 ) s 2 2 σ 2 ( n 1 + n 2 − 2 ) = x ‾ − y ‾ − ( μ 1 − μ 2 ) 1 n 1 + 1 n 2 ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 ( n 1 + n 2 − 2 ) \frac{\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} {\sqrt{\frac{\frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}}{(n_1+n_2-2)}}}= \frac{\frac{\overline{x}-\overline{y}-(\mu_1-\mu_2)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} {\sqrt{\frac{{(n_1-1)s_1^2}+{(n_2-1)s_2^2}}{(n_1+n_2-2)}}} (n1+n2−2)σ2(n1−1)s12+σ2(n2−1)s22σn11+n21x−y−(μ1−μ2)=(n1+n2−2)(n1−1)s12+(n2−1)s22n11+n21x−y−(μ1−μ2)
= x ‾ − y ‾ − ( μ 1 − μ 2 ) ∑ i = 1 n 1 ( x i − x ‾ ) 2 + ∑ i = 1 n 2 ( y i − y ‾ ) 2 ( n 1 + n 2 − 2 ) 1 n 1 + 1 n 2 =\frac{{\overline{x}-\overline{y}-(\mu_1-\mu_2)}} {\sqrt{\frac{\sum_{i=1}^{n_1}(x_i-\overline x)^2+\sum_{i=1}^{n_2}(y_i-\overline{y})^2}{(n_1+n_2-2)}} {\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} ~~~~~~~~~~~~~~~ =(n1+n2−2)∑i=1n1(xi−x)2+∑i=1n2(yi−y)2n11+n21x−y−(μ1−μ2)
= x ‾ − y ‾ − ( μ 1 − μ 2 ) s c 2 ( 1 n 1 + 1 n 2 ) ∼ t ( n 1 + n 2 − 2 ) =\frac{{\overline{x}-\overline{y}-(\mu_1-\mu_2)}} { {\sqrt{s_c^2(\frac{1}{n_1}+\frac{1}{n_2})}}}\sim t(n_1+n_2-2)~~~~~~~~~~~~~ =sc2(n11+n21)x−y−(μ1−μ2)∼t(n1+n2−2)
多元线性模型 (p个变量,n个样本) 的表达式为:
Y i = β T x i + ϵ i Y_i=\beta^T x_i+\epsilon_i Yi=βTxi+ϵi
在这里将 Y i Y_i Yi与 ϵ i \epsilon_i ϵi视为随机变量。
E ( Y i ) = E ( Y i ∣ x i ) = β T x i = μ i E(Y_i)=E(Y_i|x_i)=\beta^T x_i=\mu_i E(Yi)=E(Yi∣xi)=βTxi=μi
即:
Y i = μ i + ϵ i Y_i=\mu_i+\epsilon_i Yi=μi+ϵi
记 X n × ( p + 1 ) X_{n\times (p+1)} Xn×(p+1)为样本阵,则有:
Y = X β + ϵ = μ + ϵ Y=X\beta+\epsilon=\mu+\epsilon Y=Xβ+ϵ=μ+ϵ
再使用最小化残差平方和的方法求 β ^ \hat\beta β^:
β ^ = ( X T X ) − 1 X T Y \hat\beta=(X^TX)^{-1}X^TY β^=(XTX)−1XTY
然后有:
Y ^ = μ ^ = X β ^ = X β ^ = X ( X T X ) − 1 X T Y = H Y \hat Y=\hat \mu=X\hat\beta=X\hat\beta=X(X^TX)^{-1}X^TY=HY Y^=μ^=Xβ^=Xβ^=X(XTX)−1XTY=HY
H H H是对称阵,也是幂等阵,且 t r ( H ) = t r ( X ( X T X ) − 1 X T ) = p + 1 , tr(H)=tr(X(X^TX)^{-1}X^T)=p+1, tr(H)=tr(X(XTX)−1XT)=p+1,记 H = ( h i j ) H=(h_{ij}) H=(hij)。
记 e = Y − Y ^ = ( I − H ) Y , e i = Y i − Y ^ i , e=Y-\hat Y=(I-H)Y,e_i=Y_i-\hat Y_i, e=Y−Y^=(I−H)Y,ei=Yi−Y^i, 所以:
E ( σ 2 ^ ) = E ( 1 n − p − 1 ∑ i = 1 n e i 2 ) = 1 n − p − 1 ∑ i = 1 n ( ( E e i ) 2 + D e i ) E(\hat{\sigma^2})=E(\frac{1}{n-p-1}\sum\limits_{i=1}^{n}e_i^2)=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}((Ee_i)^2+De_i) E(σ2^)=E(n−p−11i=1∑nei2)=n−p−11i=1∑n((Eei)2+Dei)
= 1 n − p − 1 ∑ i = 1 n ( 1 − h i i ) σ 2 = 1 n − p − 1 ( n − ( p + 1 ) ) σ 2 = σ 2 ~~~~~~~~~~~~~~~~~~=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}(1-h_{ii})\sigma^2=\frac{1}{n-p-1}(n-(p+1))\sigma^2=\sigma^2 =n−p−11i=1∑n(1−hii)σ2=n−p−11(n−(p+1))σ2=σ2
即 σ 2 ^ = 1 n − p − 1 ∑ i = 1 n e i 2 \hat{\sigma^2}=\frac{1}{n-p-1}\sum\limits_{i=1}^{n}e_i^2 σ2^=n−p−11i=1∑nei2 是 σ 2 \sigma^2 σ2 的无偏估计。
假定 ϵ ∼ N ( 0 , Σ 0 ) Σ 0 = ( σ 2 0 . . . 0 0 σ 2 . . . 0 ⋮ ⋮ ⋮ ⋮ 0 0 . . . σ 2 ) \epsilon\sim N(0,\Sigma_0)~~~~\Sigma_0=\left( \begin{array}{ccc} \sigma^2 & 0 & ...&0 \\ 0 & \sigma^2 & ...&0 \\ \vdots & \vdots &\vdots&\vdots\\ 0 & 0 & ...&\sigma^2 \\ \end{array} \right) ϵ∼N(0,Σ0) Σ0=⎝⎜⎜⎜⎛σ20⋮00σ2⋮0......⋮...00⋮σ2⎠⎟⎟⎟⎞, 则 Y ∼ N ( μ , Σ 0 ) Y\sim N(\mu,\Sigma_0) Y∼N(μ,Σ0). 然后有:
E ( β ^ ) = β E(\hat\beta)=\beta E(β^)=β
D ( β ^ ) = D ( ( X T X ) − 1 X T Y ) = ( X T X ) − 1 X T D ( Y ) X ( X T X ) − 1 = σ 2 ( X T X ) − 1 D(\hat\beta)=D((X^TX)^{-1}X^TY)=(X^TX)^{-1}X^TD(Y)X(X^TX)^{-1}=\sigma^2(X^TX)^{-1} D(β^)=D((XTX)−1XTY)=(XTX)−1XTD(Y)X(XTX)−1=σ2(XTX)−1
又因为 β ^ \hat\beta β^ 是 Y i Y_i Yi 的线性组合,所以:
β ^ ∼ N ( β , σ 2 ( X T X ) − 1 ) \hat\beta\sim N(\beta,\sigma^2(X^TX)^{-1}) β^∼N(β,σ2(XTX)−1)
再记 ( X T X ) − 1 = ( k i j ) , (X^TX)^{-1}=(k_{ij}), (XTX)−1=(kij), 所以有:
β ^ i ∼ N ( β i , σ 2 k i i ) \hat\beta_i\sim N(\beta_i,\sigma^2k_{ii}) β^i∼N(βi,σ2kii)
对 β i \beta_i βi进行显著性检验,原假设为系数 β i \beta_i βi不显著,即:
H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0
记 σ ^ = σ 2 ^ \hat\sigma=\sqrt{\hat{\sigma^2}} σ^=σ2^,在原假设成立的条件下,就可以构造 t t t统计量:
t i = β ^ i k i i σ ^ ∼ t ( n − p − 1 ) t_i=\frac{\hat\beta_i}{\sqrt{k_{ii}}\hat\sigma}\sim t(n-p-1) ti=kiiσ^β^i∼t(n−p−1)