方差分析与一元线性回归

在一般的回归教材中,都不会提到经典的方差分析,而在数理统计教材中,方差分析又往往作为独立于回归分析的章节存在。所以我们一般不会去思考方差分析与回归分析之间的关系。而事实上,方差分析就是一种特殊的回归分析,oneway-anova和一元线性回归时完全等价的!

oneway-anova

举个栗子,一个因子A下有三个水平 A 1 , A 2 , A 3 A_1,A_2,A_3 A1,A2,A3,我们要比较这三个水平间是否有显著的差异, 每一个 A i A_i Ai的观测都是 y i 1 , y i 2 , . . . , y i n i y_{i1},y_{i2},...,y_{in_i} yi1,yi2,...,yini,各水平均值记为 μ i {\mu}_i μi, 总体均值记为 μ \mu μ, 水平效应 a i = μ − μ i a_i=\mu-\mu_i ai=μμi, 总观测数为 n = n 1 + n 2 + n 3 n=n_1+n_2+n_3 n=n1+n2+n3
H 0 : a 1 = a 2 = a 3 = 0 H_0:a_1=a_2=a_3=0 H0:a1=a2=a3=0
F = S A / f A S e / f e ∼ F ( f A , f e ) = F ( 2 , n − 3 ) F=\frac{S_A/f_A}{S_e/f_e} \sim F(f_A,f_e) =F(2,n-3) F=Se/feSA/fAF(fA,fe)=F(2,n3)
其中, S A S_A SA 是组间偏差平方和, S e S_e Se 是组内偏差平方和。

一元线性回归

上述方差分析的目的在于检验3个水平间是否有差距,放在线性回归里,检验3个水平是否有差距的方法就是把三个水平上的观测值作为因变量,把水平的类别作为自变量,然后检验回归系数的显著性。
可以通过设置哑变量,实现将水平类别作为自变量。因为有3个水平,所以可设置2个哑变量 x 1 , x 2 x_1,x_2 x1,x2, 则3个水平对应的 ( x 1 , x 2 ) (x_1,x_2) (x1,x2) 取值分别为 (0,0), (1,0), (0,1)。再考虑上截距项,设计矩阵为:
X X X = ( 1 0 0 . . . . . . 1 1 0 . . . . . . 1 0 1 . . . . . . ) n ∗ 3 \left( \begin{array}{ccc} 1&0&0\\..&..&..\\1&1&0\\..&..&..\\1&0&1\\..&..&.. \end{array} \right)_{n*3} 1..1..1..0..1..0..0..0..1..n3

回归方程为: Y = X β + ϵ Y = X\beta +\epsilon Y=Xβ+ϵ
因变量取值为: y = ( y 11 , . . . , y 1 n 1 , y 21 , . . . , y 2 n 2 , y 31 , . . . , y 3 n 3 ) T y = (y_{11},...,y_{1n_1},y_{21},...,y_{2n_2},y_{31},...,y_{3n_3})^T y=(y11,...,y1n1,y21,...,y2n2,y31,...,y3n3)T

使用最小二乘法解得: β ^ = ( X ′ X ) − 1 X ′ y = ( μ 1 , − μ 1 + μ 2 , − μ 1 + μ 3 ) T \hat{\beta} = (X'X)^{-1}X'y=(\mu_1,-\mu_1+\mu_2, -\mu_1+\mu_3)^T β^=(XX)1Xy=(μ1,μ1+μ2,μ1+μ3)T
H 0 : β 1 = β 2 = β 3 = 0 H_0:\beta_1=\beta_2=\beta_3=0 H0:β1=β2=β3=0
F = S S R / p S S E / n − p − 1 ∼ F ( p , n − p − 1 ) = F ( 2 , n − 3 ) F=\frac{SSR/p}{SSE/n-p-1}\sim F(p,n-p-1)=F(2,n-3) F=SSE/np1SSR/pF(p,np1)=F(2,n3)

anova vs. 一元线性回归

上面可以看出,两个统计量服从的是一模一样的分布 F ( 2 , n − 3 ) F(2,n-3) F(2,n3)。那么从其他的角度看呢?

数值的关系
事实上,根据 S A , S e , S S R , S S E S_A,S_e,SSR,SSE SA,Se,SSR,SSE 的定义,以及上面求出的 β ^ = ( μ 1 , − μ 1 + μ 2 , − μ 1 + μ 3 ) T \hat{\beta} =(\mu_1,-\mu_1+\mu_2, -\mu_1+\mu_3)^T β^=(μ1,μ1+μ2,μ1+μ3)T, 我们可以得出数值上的关系: S A = S S R S_A=SSR SA=SSR S e = S S E S_e=SSE Se=SSE.

原假设的关系
对于anova的原假设 H 0 : a 1 = a 2 = a 3 = 0 H_0:a_1=a_2=a_3=0 H0:a1=a2=a3=0 和线性回归的原假设 H 0 : β 1 = β 2 = β 3 = 0 H_0:\beta_1=\beta_2=\beta_3=0 H0:β1=β2=β3=0而言,都可以写为 H 0 : μ 1 = μ 2 = μ 3 = 0 H_0:\mu_ 1=\mu_2=\mu_3=0 H0:μ1=μ2=μ3=0.

参考文献

《概率论与数理统计》,茆诗松,P423-432
《应用回归分析》,何晓群,P71

你可能感兴趣的:(统计)