【更新日志】
5/1/2020 对文章中公式与措辞中存在的问题进行修正(感谢评论区小伙伴的指正!)
在上一篇文章中,我们分别研究了最小二乘估计量 β^OLS 和 σ^OLS 的相关性质,证明了 β^OLS 是 β 的一个最优线性无偏估计量(BLUE), σ^2OLS 是 σ2 的一个无偏估计量,并得到了其在正态性误差假设下所对应的分布:
β ^ O L S ∼ N ( β , σ 2 ( X T X ) − 1 ) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLS∼N(β,σ2(XTX)−1) σ ^ O L S 2 σ 2 ∼ χ N − p − 1 2 \frac {\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1} σ2σ^OLS2∼χN−p−12
(详情请见:【统计学习系列】多元线性回归模型(三)——参数估计量的性质)。
通过最小二乘法拟合好模型的参数后,一个重要的问题就是:这个模型真的“好"吗?满足什么条件、什么性质的模型可以称作一个“好模型”呢?
首先,我们应该想到的问题是,在一个多元回归模型中,是不是每一个引入的自变量对因变量都有实实在在的影响呢?这样的影响是显著的吗?我们应不应该在模型中保留这一变量呢?
在回答这些问题之前,我们先回顾一下总体模型:
Y = β 0 + ∑ i = 1 p X i β i + ϵ Y= \beta_0 + \sum_{i=1}^{p} X_{i} \beta_i + \epsilon Y=β0+i=1∑pXiβi+ϵ其中:
ϵ ∼ N ( 0 , σ 2 ) \epsilon \thicksim N(0,\sigma^2) ϵ∼N(0,σ2)
让我们聚焦众多参数中的一个:βi 。βi 的意义是什么呢?当其他变量保持不变,而只有 Xi 变动时,每变动一个单位的 Xi,就会让 Y 平均变动 βi 个单位。而若 Xi 的变动能够确确实实引起 Y 的变动, 那么 βi 应该不等于0。换句话说,若可以验证 βi 不为0,那么就可以证明Xi 与 Y 存在线性相关关系。
【注1】 这里的关系是线性的。二次即更高阶的相关性并不能由 βi 是否等于0体现;
【注2】 Xi 与 Y 存在相关关系,并不能证明二者之间存在 因果关系(Causality)。
然而,我们现在只有 βi 的估计量 β^OLS,i ,而估计量与参数的真实值有一定的误差。由于 β^OLS,i 是一个统计量,因此只要我们在统计意义下验证 βi 是否等于零就可以了。
至此,我们就可以构造一个如下的假设检验问题:
H 0 : β i = 0 H 1 : β i ≠ 0 H_0: \beta_i=0 \\ H_1: \beta_i\ne0 H0:βi=0H1:βi=0
若想构造检验统计量,我们需要先对 β^OLS,i 进行变型。
记矩阵 (XTX)-1 的对角线元素:
diag ( X T X ) − 1 = ( v i , i ) p + 1 \text{diag}(\bm{X}^T \bm{X} )^{-1} = (v_{i,i})_{p+1} diag(XTX)−1=(vi,i)p+1
由第一部分中 β^OLS 服从的分布,我们可以得到 β^OLS,i 的分布:
β ^ O L S , i ∼ N ( β i , σ 2 v i , i ) , i = 0 , 1 , . . . , p \hat\beta_{OLS, i} \thicksim N(\beta_i, \sigma^2 v_{i,i}) , \ i=0, 1,...,p β^OLS,i∼N(βi,σ2vi,i), i=0,1,...,p
将 β^OLS 标准化,有:
β ^ O L S , i − β i σ v i , i ∼ N ( 0 , 1 ) , i = 0 , 1 , . . . , p \frac {\hat\beta_{OLS,i} - \beta_i}{ \sigma \sqrt{v_{i,i}} } \thicksim N(0, 1) , \ i=0, 1,...,p σvi,iβ^OLS,i−βi∼N(0,1), i=0,1,...,p
然而,此时总体标准差σ 为未知参数,因此需要用样本标准差 σ^ 来代替。由于 σ^2OLS 有分布:
( N − P − 1 ) σ ^ O L S 2 σ 2 ∼ χ N − p − 1 2 \frac {(N-P-1) \hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1} σ2(N−P−1)σ^OLS2∼χN−p−12
由 t 分布的定义:
( N − p − 1 ) ( β ^ O L S , i − β i ) σ v i , i / ( N − p − 1 ) σ ^ O L S 2 σ 2 = β ^ O L S , i − β i σ ^ v i , i ∼ t N − p − 1 \frac {\sqrt{(N-p-1)} (\hat\beta_{OLS,i} - \beta_i ) } { \sigma \sqrt{v_{i,i}} } / \sqrt{\frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} } \\ =\frac {\hat\beta_{OLS,i} - \beta_i}{\hat \sigma \sqrt{v_{i,i}} } \thicksim t_{N-p-1} σvi,i(N−p−1)(β^OLS,i−βi)/σ2(N−p−1)σ^OLS2=σ^vi,iβ^OLS,i−βi∼tN−p−1
若原假设 H0 成立,即 βi = 0,可以定义 t 统计量(又称 t 值):
t = β ^ O L S , i σ ^ v i , i ∼ t N − p − 1 t= \frac {\hat\beta_{OLS,i}}{\hat \sigma \sqrt{v_{i,i}} } \thicksim t_{N-p-1} t=σ^vi,iβ^OLS,i∼tN−p−1
并称上式分母项为 β^OLS,i 的标准误(Standard Error, SE)。
从 t 统计量的定义式可以看出,t 的绝对值越大,β^OLS,i 越不等于0,原假设越有可能出错,我们越应该拒绝原假设。
注1:t 值的几何意义为 β^OLS,i 偏离其标准误的单位数;
注2:当N足够大时,t 统计量近似服从标准正态分布,因此可以使用标准正态分布进行替代。关于 t 分布与正态分布的关系,可参考文献[1] t分布收敛于标准正态分布的几种证明方法。
注3:关于t分布与t检验相关的更多知识,可参考文献[2] 我懒得找了。
然而,t 统计量多大算大呢?多大我们才应该拒绝原假设呢?
假设原假设 H0 正确,根据 t 统计量所对应的分布,在给定某一概率 1-α(我们称其为置信水平(Confidence Level))的前提下,t 统计量应该满足:
P { ∣ t ∣ > t α 2 , N − p − 1 } < α P\{ |t| >t_{\frac{\alpha}{2}, N-p-1} \}< \alpha P{∣t∣>t2α,N−p−1}<α
其中,tα/2,N-p-1是 tN-p-1 分布的 α/2 分位数,可以通过计算机软件或者查 t 分布分布表的方式得到。
在判断原假设是否成立时,我们可以基于一个原则:小概率事件在一次试验中几乎不会发生。若 α 足够小,比如规定为常用的0.05,那么在 H0 正确的前提下,t 统计量的绝对值大于 t0.025,N-p-1 的概率不超过5%。换言之,或者说 |t| > t0.025,N-p-1,我们就有足够的理由去认为原假设不正确,从而拒绝原假设。
基于这种思想,我们可以构造出一个区域(称为拒绝域(Rejection Field)):
( − ∞ , − t α 2 , N − p − 1 ) ∪ ( t α 2 , N − p − 1 , + ∞ ) (-\infin,-t_{\frac{\alpha}{2}, N-p-1}) \ \cup \ (t_{\frac{\alpha}{2}, N-p-1}, +\infin) (−∞,−t2α,N−p−1) ∪ (t2α,N−p−1,+∞)
图1 t检验拒绝域构造示意图(阴影部分即为对应显著性水平下的拒绝域。图片来源:百度图片)
当 t 统计量落入这个区域时,我们都应该拒绝原假设H0,并认为 βi 不等于0,自变量 Xi 与因变量 Y 存在统计意义下显著的线性相关关系(Statistically Significant Linear Correlation)。
注1:拒绝域,顾名思义,即若t值落入这个区间就应该拒绝原假设H0;
注2:在应用时,我们可以记住一句口诀:t值(的绝对值)越大越拒绝。
此外,许多统计软件在回归的结果中会给出参数估计量所对应的p值(p-value)。p值的意义是:拒绝原假设所需要的最小置信度。什么意思呢?就是说,如果给出的p值小于你需要的置信度 α ,那么我们就应该拒绝原假设。也就是说,若:
p-value < α \text{p-value}<\alpha p-value<α
我们应拒绝原假设H0,并认为 βi 不等于0,自变量 Xi 与因变量 Y 存在统计意义下显著的线性相关关系。
注1:与t值正好相反,在应用时,我们可以说:p值越小越拒绝;
注2:使用p值而不使用t值的好处是:p值不依赖于样本容量 N,不用查分布表,使用起来更加简单方便 。
在上一章的t检验中,我们对单一变量进行了显著性影响的评判。然而,这样做的一个缺点是:我们只判断了某一个解释变量对因变量单独的影响,而忽略了各解释变量对因变量的“共同作用”。若每一个变量单独与因变量不具有显著的线性关系,那么是不是模型本身就不能用了呢?未必。换句话说,只有模型中引入的解释变量 X1, …, Xp 均不能解释因变量Y,那么我们所建立的模型才能说是没有意义的。因此,我们需要对模型整体进行检验。与t检验类似,我们可以构造如下的假设检验问题:
H 0 : β 1 = β 2 = . . . = β p = 0 H 1 : ∃ i ∈ { 1 , 2 , . . . , p } , s . t . β i ≠ 0 H_0: \beta_1 = \beta_2 = ... = \beta_p =0 \\ H_1: \exist \ i \in \{1,2,...,p\}, s.t. \ \beta_i\ne0 H0:β1=β2=...=βp=0H1:∃ i∈{1,2,...,p},s.t. βi=0
注:β0 不能放入检验变量中,因为现在需要检验的是 X 与 Y 的线性关系,而不是Y 是否等于0这一问题。
我们应该如何构建检验统计量呢?让我们重新考察原模型:
y i = β 0 + ∑ j = 1 p x i j β j + ϵ i y_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i yi=β0+j=1∑pxijβj+ϵi
然而,若原假设H0成立,那么模型将会退化为
y = β 0 + ϵ i y = \beta_0 + \epsilon_i y=β0+ϵi
因此,假设回归方程是显著的(即H0不成立),那么由回归方程所拟合的因变量 y^i 应该有较大的方差,而其残差项所对应的方差应该较小,这是因为不同的解释变量 xi 应该对应不同的被解释变量 yi ;若回归方程不显著(H0成立),那么此时回归方程所拟合的变量 y^i 方差应该几乎为零,而其残差项 y^i - yi 则应具有较大的方差。
我们定义回归方程的可解释平方和(Explained Sum of Square,ESS)为:
E S S = ∑ i = 1 N ( y ^ i − y ^ ˉ ) 2 = ∑ i = 1 N ( y ^ i − y ˉ ) 2 ESS = \sum_{i=1} ^N(\hat{y}_i - \bar{\hat{y}} )^2 = \sum_{i=1} ^N(\hat{y}_i - \bar{y} )^2 ESS=i=1∑N(y^i−y^ˉ)2=i=1∑N(y^i−yˉ)2
回归的残差平方和(Residual Sum of Square,RSS)为:
R S S = ∑ i = 1 N ( y ^ i − y i ) 2 RSS = \sum_{i=1} ^N(\hat{y}_i - y_i )^2 RSS=i=1∑N(y^i−yi)2
根据上述的分析,如果可解释平方(ESS)和与残差平方和(RSS)之比越大,则说明 X 对 Y 整体的影响越显著;若原假设H0成立,则ESS与RSS的比值应该接近于0。
而容易证明,ESS与RSS分别服从卡方分布:
E S S p ∼ χ p 2 \frac{ESS}{p} \thicksim \chi^2_{p} pESS∼χp2 R S S N − p − 1 ∼ χ N − p − 1 2 \frac{RSS}{N-p-1} \thicksim \chi^2_{N-p-1} N−p−1RSS∼χN−p−12
注:这部分证明将会在未来补充在附录中。
至此,我们可以构造F统计量:
F = E S S / p R S S / N − p − 1 ∼ F ( p , N − p − 1 ) F = \frac{ESS/p}{RSS/N-p-1} \thicksim F(p, N-p-1) F=RSS/N−p−1ESS/p∼F(p,N−p−1)
从F统计量的够造上来看,F统计量越大,说明 X 对 Y 存在的影响更大,原假设越可能被拒绝;而F统计量越接近零,说明 X 对 Y 存在的影响越小,原假设越可能成立。
注1:从F统计量的构造上来看,F取值非负(平方和与平方和的比值);
注2:在应用过程中,可以记住口诀:F越大越拒绝;
注3:有关F分布与F检验更多的相关知识,请有关参考文献[3] 我还是懒得找了。
与 t 统计量拒绝域构造方法类似,在给定置信水平 1 - α 的前提下,F 统计量应该满足:
P { F > F α ( p , N − p − 1 ) } < α P\{ F > F_{\alpha} (p, N-p-1) \}< \alpha P{F>Fα(p,N−p−1)}<α
其中,Fα(p, N - p - 1) 是 F(p, N - p - 1) 分布的 α 分位数,可以通过计算机软件或者查 F 分布分布表的方式得到。
注:与 t 统计量的双尾检验区间不同的是,F 检验为单尾检验。
我们依然依照“小概率事件在一次试验中不会发生”的原则:在 H0 正确的前提下,F 统计量大于 Fα(p, N - p - 1) 的概率不超过 α。换言之,若 F > Fα(p, N - p - 1),我们就有足够的理由去认为原假设不正确,从而拒绝原假设。
基于这种思想,我们可以构造拒绝域:
( F α ( p , N − p − 1 ) , + ∞ ) (F_\alpha(p, N-p-1), +\infin) (Fα(p,N−p−1),+∞)
图2 F检验拒绝域构造示意图(阴影部分即为对应显著性水平下的拒绝域。图片来源:百度图片)
当 F 统计量落入拒绝域内时,我们应该拒绝原假设H0,从而认为模型是显著的,或者说解释变量 X 与被解释变量 Y 之间存在显著的线性相关关系。
在这篇文章中,我们分别研究了单变量的显著性检验和模型的显著性检验。
(1)在单变量检验中,我们构造了假设检验问题:
H 0 : β i = 0 H 1 : β i ≠ 0 H_0: \beta_i=0 \\ H_1: \beta_i\ne0 H0:βi=0H1:βi=0
构造了检验统计量—— t 统计量:
t = β ^ O L S , i S E ( β ^ O L S , i ) ∼ t ( N − p − 1 ) t= \frac {\hat\beta_{OLS,i}}{SE(\hat \beta_{OLS,i})}\thicksim t(N-p-1) t=SE(β^OLS,i)β^OLS,i∼t(N−p−1)
并给出了拒绝域:
( − ∞ , − t α 2 ( N − p − 1 ) ) ∪ ( t α 2 ( N − p − 1 ) , + ∞ ) (-\infin,-t_\frac{\alpha}{2}(N-p-1)) \ \cup \ (t_\frac{\alpha}{2}(N-p-1), +\infin) (−∞,−t2α(N−p−1)) ∪ (t2α(N−p−1),+∞)
(2)在模型检验中,我们构造了假设检验问题:
H 0 : β 1 = β 2 = . . . = β p = 0 H 1 : ∃ i ∈ { 1 , 2 , . . . , p } , s . t . β i ≠ 0 H_0: \beta_1 = \beta_2 = ... = \beta_p =0 \\ H_1: \exist \ i \in \{1,2,...,p\}, s.t. \ \beta_i\ne0 H0:β1=β2=...=βp=0H1:∃ i∈{1,2,...,p},s.t. βi=0
构造了检验统计量—— F 统计量:
F = E S S / p R S S / N − p − 1 ∼ F ( p , N − p − 1 ) F = \frac{ESS/p}{RSS/N-p-1} \thicksim F(p, N-p-1) F=RSS/N−p−1ESS/p∼F(p,N−p−1)
并给出了拒绝域:
( F α ( p , N − p − 1 ) , + ∞ ) (F_\alpha(p, N-p-1), +\infin) (Fα(p,N−p−1),+∞)
至此,我们解决了如何验证各个解释变量对因变量是否存在显著的线性影响,以及模型中涉及到的解释变量总体是否对因变量是否存在显著的线性影响。
[1] t分布收敛于标准正态分布的几种证明方法
欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀!
有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: [email protected]
谢谢大家!