y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + u y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_kx_k + u y=β0+β1x1+β2x2+⋯+βkxk+u
y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 + ⋯ + β k ^ x k \hat{y} = \hat{\beta_0} + \hat{\beta_1}x_1 + \hat{\beta_2}x_2 + \cdots + \hat{\beta_k}x_k y^=β0^+β1^x1+β2^x2+⋯+βk^xk
上式被称为OLS回归线或样本回归函数;
目标:残差平方和最小
arg min ∑ i = 1 n ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) 2 \argmin \sum_{i=1}^n(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik}))^2 argmini=1∑n(yi−(β0^+β1^xi1+β2^xi2+⋯+βk^xik))2
对每个 β ^ \hat{\beta} β^求导
{ 2 ∑ i = 1 n ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) = 0 2 ∑ i = 1 n x i 1 ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) = 0 ⋯ 2 ∑ i = 1 n x i k ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) = 0 \begin{cases} 2\sum_{i=1}^n(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\\ 2\sum_{i=1}^nx_{i1}(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\\ \cdots\\ 2\sum_{i=1}^nx_{ik}(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\\ \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧2∑i=1n(yi−(β0^+β1^xi1+β2^xi2+⋯+βk^xik))=02∑i=1nxi1(yi−(β0^+β1^xi1+β2^xi2+⋯+βk^xik))=0⋯2∑i=1nxik(yi−(β0^+β1^xi1+β2^xi2+⋯+βk^xik))=0
上式通常被称为OLS的一阶条件;
(以两个解释变量为例,考虑如下OLS回归线)
y ^ = β 0 ^ + β 1 ^ x 1 + β 1 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_1}x_2 y^=β0^+β1^x1+β1^x2
估计值 β 1 ^ 和 β 2 ^ \hat{\beta_1}和\hat{\beta_2} β1^和β2^具有偏效应:从方程中我们可以得到
△ y ^ = β 1 ^ △ x 1 + β 2 ^ △ x 2 \triangle\hat{y} = \hat{\beta_1}\triangle x_1 + \hat{\beta_2}\triangle x_2 △y^=β1^△x1+β2^△x2
因此我们能在给定 x 1 与 x 2 x_1与x_2 x1与x2的变化的情况下,预测 y y y的变化,特别地,当 x 2 x_2 x2固定,即 △ x 2 = 0 \triangle x_2=0 △x2=0时,可以得到
△ y ^ = β 1 ^ △ x 1 \triangle\hat{y} = \hat{\beta_1}\triangle x_1 △y^=β1^△x1
这样的解释就是多元线性回归的有用之处了,所以我们得到 x 1 x_1 x1的系数可以解释为:在其他条件不变的情况下 x 1 对 y x_1对y x1对y的影响,这样就能实现控制变量的目的。
多元回归分析的作用:尽管不能在其他条件不变的情况下收集数据,但它提供的系数仍可做其他条件不变的解释。(其内在逻辑是:社会科学的数据往往不是在实验条件下获取的,往往不能保证一个量不变去分析另外一个变量,而多元回归分析可以实现这样的有效模拟)
(以两个解释变量为例,考虑如下OLS回归线)
y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_2}x_2 y^=β0^+β1^x1+β2^x2
其中, r i 1 ^ \hat{r_{i1}} ri1^是利用现有样本将 x 1 x_1 x1对 x 2 x_2 x2进行简单回归的得到的OLS残差,然后再利用 y 对 r i 1 ^ y对\hat{r_{i1}} y对ri1^进行简单回归就能得到 β 1 ^ \hat{\beta_1} β1^
推导
x 1 x_1 x1对 x 2 x_2 x2进行简单回归
x 1 ^ = α 0 ^ + α 1 ^ x 2 r i 1 ^ = x i 1 − x i 1 ^ \hat{x_1} = \hat{\alpha_0} + \hat{\alpha_1}x_2\\ \hat{r_{i1}}=x_{i1}-\hat{x_{i1}} x1^=α0^+α1^x2ri1^=xi1−xi1^
用 x i 1 ^ + r i 1 ^ \hat{x_{i1}} + \hat{r_{i1}} xi1^+ri1^代替 x i 1 x_{i1} xi1带回方程
y ^ = β 0 ^ + β 1 ^ ( x i 1 ^ + r i 1 ^ ) + β 2 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}(\hat{x_{i1}} + \hat{r_{i1}}) + \hat{\beta_2}x_2 y^=β0^+β1^(xi1^+ri1^)+β2^x2
对上式进行一整套OLS的一阶条件,现只考虑对 β 1 ^ \hat{\beta_1} β1^求偏导的步骤
∑ i = 1 n ( x i 1 ^ + r i 1 ^ ) ( y ^ − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 ) ) = 0 \sum_{i=1}^n(\hat{x_{i1}} + \hat{r_{i1}})(\hat{y}-(\hat{\beta_0}+\hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2}))=0 i=1∑n(xi1^+ri1^)(y^−(β0^+β1^xi1+β2^xi2))=0
因为 x i 1 ^ \hat{x_{i1}} xi1^是解释变量 x i 2 x_{i2} xi2的线性函数,根据性质2,有 ∑ i = 1 n x i 1 ^ u i ^ = 0 \sum_{i=1}^n\hat{x_{i1}}\hat{u_i} = 0 ∑i=1nxi1^ui^=0
∑ i = 1 n r i 1 ^ ( y ^ − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 ) ) = 0 \sum_{i=1}^n\hat{r_{i1}}(\hat{y}-(\hat{\beta_0}+ \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2}))=0 i=1∑nri1^(y^−(β0^+β1^xi1+β2^xi2))=0
又因为 r i 1 ^ \hat{r_{i1}} ri1^是 x 1 对 x 2 x_1对x_2 x1对x2的回归残差,有 ∑ i = 1 n x i 2 u i ^ = 0 \sum_{i=1}^n{x_{i2}}\hat{u_i} = 0 ∑i=1nxi2ui^=0, ∑ i = 1 n u i ^ = 0 \sum_{i=1}^n\hat{u_i} = 0 ∑i=1nui^=0
∑ i = 1 n r i 1 ^ ( y ^ − β 1 ^ x i 1 ) = ∑ i = 1 n r i 1 ^ ( y ^ − β 1 ^ ( x i 1 ^ + r i 1 ^ ) ) = 0 \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}x_{i1}) = \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}(\hat{x_{i1}} + \hat{r_{i1}})) =0 i=1∑nri1^(y^−β1^xi1)=i=1∑nri1^(y^−β1^(xi1^+ri1^))=0
又因为 r i 1 ^ \hat{r_{i1}} ri1^是 x 1 对 x 2 x_1对x_2 x1对x2的回归残差,有 ∑ i = 1 n x i 1 r i 1 ^ = 0 \sum_{i=1}^n{x_{i1}}\hat{r_{i1}} = 0 ∑i=1nxi1ri1^=0
则 β 1 ^ \hat{\beta_1} β1^是下式的解:
∑ i = 1 n r i 1 ^ ( y ^ − β 1 ^ r i 1 ^ ) = 0 ⇒ β 1 ^ = ∑ i = 1 n r i 1 ^ y i ∑ i = 1 n r i 1 ^ 2 \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}\hat{r_{i1}}) =0\\ \Rightarrow \hat{\beta_1} = \frac{\sum_{i=1}^n\hat{r_{i1}}y_i}{\sum_{i=1}^n\hat{r_{i1}}^2} i=1∑nri1^(y^−β1^ri1^)=0⇒β1^=∑i=1nri1^2∑i=1nri1^yi
β 1 \beta_1 β1的另一种偏效应解释
残差 r i 1 ^ \hat{r_{i1}} ri1^是 x i 1 x_{i1} xi1中与 x i 2 x_{i2} xi2不相关的部分(或者说 r i 1 ^ \hat{r_{i1}} ri1^排除了 x i 2 x_{i2} xi2影响之后的部分),于是 β 1 \beta_1 β1度量了在排除 x i 2 x_{i2} xi2影响之后 y 和 x 1 y和x_1 y和x1之间的样本关系。更一般地,在有k个解释变量的一般模型中, r ^ \hat{r} r^来自 x 1 x_1 x1对 x 2 , … , x k x_2,\ldots,x_k x2,…,xk的回归,于是 β 1 ^ \hat{\beta_1} β1^度量的是,在排除 x 1 x_1 x1对 x 2 , … , x k x_2,\ldots,x_k x2,…,xk等变量的影响后, x 1 对 y x_1对y x1对y的影响。排除的结果通常被称为弗里施-沃定理
S S T ≡ ∑ i = 1 n ( y i − y ˉ ) 2 S S E ≡ ∑ i = 1 n ( y i ^ − y ˉ ) 2 S S R ≡ ∑ i = 1 n u i ^ 2 SST \equiv \sum_{i=1}^n (y_i - \bar{y})^2\\ SSE \equiv \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\\ SSR \equiv \sum_{i=1}^n \hat{u_i}^2 SST≡i=1∑n(yi−yˉ)2SSE≡i=1∑n(yi^−yˉ)2SSR≡i=1∑nui^2
同理,有
S S T = S S E + S S R SST = SSE + SSR SST=SSE+SSR
拟合优度 R 2 R^2 R2
R 2 ≡ S S E S S T = 1 − S S R S S T R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST} R2≡SSTSSE=1−SSTSSR
可以证明: R 2 R^2 R2等于 y i y_i yi实际值与其拟合值 y i ^ \hat{y_i} yi^的相关系数的平方
R 2 ≡ ( ∑ i = 1 n ( y i − y ˉ ) ( y i ^ − y ^ ˉ ) ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 ∑ i = 1 n ( y i ^ − y ^ ˉ ) 2 R^2 \equiv \frac{(\sum_{i=1}^n(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}}))^2}{\sum_{i=1}^n(y_i-\bar{y})^2\sum_{i=1}^n(\hat{y_i}-\bar{\hat{y}})^2} R2≡∑i=1n(yi−yˉ)2∑i=1n(yi^−y^ˉ)2(∑i=1n(yi−yˉ)(yi^−y^ˉ))2
(以两个解释变量为例)
如果 y y y只对 x 1 x_1 x1进行简单回归
y ~ = β 0 ~ + β 1 ~ x 1 \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 y~=β0~+β1~x1
而对 x 1 和 x 2 x_1和x_2 x1和x2进行多元回归
y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_2}x_2 y^=β0^+β1^x1+β2^x2
β 1 ~ \tilde{\beta_1} β1~通常不等于 β 1 ^ \hat{\beta_1} β1^,而存在如下关系:
β 1 ~ = β 1 ^ + β 2 ^ δ 1 ~ \tilde{\beta_1} = \hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1} β1~=β1^+β2^δ1~
其中, δ 1 ~ \tilde{\delta_1} δ1~是 x 2 对 x 1 x_2对x_1 x2对x1进行简单回归的斜率系数
但在下列两种情形下, β 1 ~ \tilde{\beta_1} β1~会与 β 1 ^ \hat{\beta_1} β1^相等:
有4个假定,因为简单线性模型也可以写作MLR,后面就用MLR来表示
假定
MLR.1 (线性于参数)
总 体 模 型 y = β 0 + β 1 x + u 总体模型\\ y = \beta_0 + \beta_1x + u 总体模型y=β0+β1x+u
MLR.2 (随机抽样)
横截面数据的样本都是随机抽样的结果
MLR.3 (不存在完全共线性)
在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系,举几个例子
MLR.4 (零条件均值)
E ( u ∣ x 1 , x 2 , … , x k ) = 0 E(u|x_1,x_2,\ldots,x_k) = 0 E(u∣x1,x2,…,xk)=0
当假定4成立时,我们常说具有外生解释变量;但若 x j 与 u x_j与u xj与u相关,那么 x j x_j xj就称为内生解释变量;
定理
OLS估计量的无偏性
在MLR.1至MLR.4下,下式对总体参数 β j \beta_j βj的任意值都成立
E ( β j ^ ) = β j , j = 0 , 1 , … , k E(\hat{\beta_j}) = \beta_j,j=0,1,\ldots,k E(βj^)=βj,j=0,1,…,k
注意
: 不能说一个估计值是无偏的,因为一个估计值就是从一组特定样本得到的一个固定值;我们只能说保持MLR.1至MLR.4假定的估计值的程序是无偏的,所以认为我们的估计也是无偏的;
前提:满足MLR.1至MLR.4假设
模型:
y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + u y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + u y=β0+β1x1+β2x2+β3x3+u
其中, x 3 x_3 x3是无关变量;
结论:不会影响OLS估计量的无偏性
E ( β 0 ^ ) = β 0 E ( β 1 ^ ) = β 1 E ( β 2 ^ ) = β 2 E ( β 3 ^ ) = 0 E({\hat{\beta_0}}) = \beta_0\\ E({\hat{\beta_1}}) = \beta_1\\ E({\hat{\beta_2}}) = \beta_2\\ E({\hat{\beta_3}}) = 0\\ E(β0^)=β0E(β1^)=β1E(β2^)=β2E(β3^)=0
(遗漏了一个实际上应包括在真实(总体)模型中的变量)
假设总体模型:
y = β 0 + β 1 x 1 + β 2 x x + u y = \beta_0 + \beta_1x_1 + \beta_2x_x + u y=β0+β1x1+β2xx+u
而现在模型:
y ~ = β 0 ~ + β 1 ~ x 1 + u \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 + u y~=β0~+β1~x1+u
由前面(简单回归与多元回归的比较)
β 1 ~ = β 1 ^ + β 2 ^ δ 1 ~ \tilde{\beta_1} = \hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1} β1~=β1^+β2^δ1~
推导
b i a s ( β 1 ~ ) bias(\tilde{\beta_1}) bias(β1~)
E ( β 1 ~ ) = E ( β 1 ^ + β 2 ^ δ 1 ~ ) = E ( β 2 ^ ) + E ( β 2 ^ ) δ 1 ~ = β 1 + β 2 δ 1 ~ ⇒ b i a s ( β 1 ~ ) = E ( β 1 ~ ) − β 1 = β 2 δ 1 ~ E(\tilde{\beta_1}) = E(\hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1}) =E(\hat{\beta_2})+E(\hat{\beta_2})\tilde{\delta_1} = \beta_1 + \beta_2\tilde{\delta_1}\\ \Rightarrow bias(\tilde{\beta_1}) = E(\tilde{\beta_1}) - \beta_1 = \beta_2\tilde{\delta_1} E(β1~)=E(β1^+β2^δ1~)=E(β2^)+E(β2^)δ1~=β1+β2δ1~⇒bias(β1~)=E(β1~)−β1=β2δ1~
称为遗漏变量偏误,此时的偏误源自遗漏的解释变量 x 2 x_2 x2
由于 δ 1 ~ \tilde{\delta_1} δ1~是 x 1 和 x 2 x_1和x_2 x1和x2之间的样本协方差与 x 1 x_1 x1的样本方差之比
(重要理解)换句话说,若 E ( x 2 ∣ x 1 ) = E ( x 2 ) E(x_2|x_1) = E(x_2) E(x2∣x1)=E(x2),那么 β 1 ~ \tilde{\beta_1} β1~的无偏性无须以 x 2 x_{2} x2为条件;于是在估计 b e t a 1 beta_1 beta1时,只需调整截距,将 x 2 x_2 x2放到误差项中就不违背误差项条件均值为零的假定’
C o r r ( x 1 , x 2 ) > 0 Corr(x_1,x_2)>0 Corr(x1,x2)>0 | C o r r ( x 1 , x 2 ) < 0 Corr(x_1,x_2)<0 Corr(x1,x2)<0 | |
---|---|---|
β 2 > 0 \beta_2>0 β2>0 | 偏误为正 | 偏误为负 |
β 2 < 0 \beta_2<0 β2<0 | 偏误为负 | 偏误为正 |
在经济学经验研究时,与偏误相关联的术语:
更一般地,我们讨论k个变量下,遗漏了第l个变量的情形
假设总体模型:
y = β 0 + β 1 x 1 + ⋯ + β k x k + u y = \beta_0 + \beta_1x_1 + \cdots + \beta_kx_k + u y=β0+β1x1+⋯+βkxk+u
现在的模型: 遗漏变量 x l x_l xl,对第j个变量有,
β j ~ = β j ^ + β l ^ δ j ~ = β j ^ + β l ^ ∑ i = 1 n ( x i j − x j ˉ ) ∑ i = 1 n ( x i l − x l ˉ ) ∑ i = 1 n ( x i j − x j ˉ ) 2 \begin{aligned} \tilde{\beta_j} &= \hat{\beta_j} + \hat{\beta_l}\tilde{\delta_j}\\ &= \hat{\beta_j} + \hat{\beta_l}\frac{\sum_{i=1}^n(x_{ij}-\bar{x_j})\sum_{i=1}^n(x_{il}-\bar{x_l})}{\sum_{i=1}^n(x_{ij}-\bar{x_j})^2} \end{aligned} βj~=βj^+βl^δj~=βj^+βl^∑i=1n(xij−xjˉ)2∑i=1n(xij−xjˉ)∑i=1n(xil−xlˉ)
其中, δ j ~ \tilde{\delta_j} δj~是 x l x_l xl对 x j x_j xj简单回归得到的系数
还是两个例外,除非 β l = 0 或 δ j ~ = 0 \beta_l=0或\tilde{\delta_j}=0 βl=0或δj~=0,否则 β j ~ \tilde{\beta_j} βj~就是 β j \beta_j βj的有偏估计
在MLR.1-MLR.4的基础上再加入一个同方差假定
MLR.1-MLR.5被称为横截面回归的高斯-马尔科夫假定
结论:(抽样方差)
V a r ( β j ^ ) = σ 2 S S T j ( 1 − R j 2 ) Var(\hat{\beta_j}) = \frac{\sigma^2}{SST_j(1-R_j^2)} Var(βj^)=SSTj(1−Rj2)σ2
其中, R j 2 R_j^2 Rj2是 x j x_j xj对其他所有自变量进行回归,得到的 R 2 R^2 R2,而 S S T j SST_j SSTj衡量的是 x j x_j xj的总样本的波动
V a r ( β j ^ ) Var(\hat{\beta_j}) Var(βj^)是由3个因素影响: σ 2 , S S T j 和 R j 2 \sigma^2,SST_j和R_j^2 σ2,SSTj和Rj2
V a r ( β j ^ ) Var(\hat{\beta_j}) Var(βj^)的最小值条件:
所以我们的解释变量两两间越无关拟合效果越好,这与我们在做PCA时,选取的变量两两正交一致;
注意
有时候多重共线性对我们的分析没有太大影响,假如一个含有3个解释变量的回归模型,其中 x 2 与 x 3 x_2与x_3 x2与x3高度相关,那么 V a r ( β 2 ^ ) 与 V a r ( β 3 ^ ) Var(\hat{\beta_2})与Var(\hat{\beta_3}) Var(β2^)与Var(β3^)都很大,但若 x 1 与 x 2 、 x 3 x_1与x_2、x_3 x1与x2、x3无关,无论 x 2 与 x 3 x_2与x_3 x2与x3如何相关, V a r ( β 1 ^ ) = σ 2 S S T 1 Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_1} Var(β1^)=SST1σ2,我们只关心的是 β 1 \beta_1 β1
实际后果:
补救措施:
则 V a r ( β 1 ^ ) Var(\hat{\beta_1}) Var(β1^)可以表示为
V a r ( β 1 ^ ) = σ 2 S S T j V I F j Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_j}VIF_j Var(β1^)=SSTjσ2VIFj
(遗漏了一个实际上应包括在真实(总体)模型中的变量)
假设总体模型:
y = β 0 + β 1 x 1 + β 2 x x + u y = \beta_0 + \beta_1x_1 + \beta_2x_x + u y=β0+β1x1+β2xx+u
而现在模型:
y ~ = β 0 ~ + β 1 ~ x 1 + u \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 + u y~=β0~+β1~x1+u
则有:
V a r ( β 1 ^ ) = σ 2 S S T 1 ( 1 − R 1 2 ) , V a r ( β 1 ~ ) = σ 2 S S T 1 Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_1(1-R_1^2)},Var(\tilde{\beta_1}) = \frac{\sigma^2}{SST_1} Var(β1^)=SST1(1−R12)σ2,Var(β1~)=SST1σ2
若 β 2 ≠ 0 \beta_2\neq0 β2=0, β 1 ~ \tilde{\beta_1} β1~有偏, β 1 ^ \hat{\beta_1} β1^无偏,且 V a r ( β 1 ~ ) < V a r ( β 1 ^ ) Var(\tilde{\beta_1})Var(β1~)<Var(β1^)
解释:而 β 2 ≠ 0 \beta_2\neq0 β2=0,不把 x 2 x_2 x2放到模型里面就会导致 β 1 \beta_1 β1的估计量有偏误,但放进去又会增大方差,所以这是一个权衡问题,而两个有利的原因让我在模型中包括 x 2 x_2 x2
若 β 2 = 0 \beta_2=0 β2=0, β 1 ~ \tilde{\beta_1} β1~和 β 1 ^ \hat{\beta_1} β1^都无偏,且 V a r ( β 1 ~ ) < V a r ( β 1 ^ ) Var(\tilde{\beta_1})Var(β1~)<Var(β1^)
解释:说明如果 x 2 对 y x_2对y x2对y没有偏效应,那么将它放到模型里,只会增加多重共线性,从而导致 β 1 \beta_1 β1的估计量效率较低,估计量方差较高。
按照简单回归的思路:因为 σ 2 = E ( u 2 ) \sigma^2 = E(u^2) σ2=E(u2),但我们无法观测到误差项,用残差代替误差
注意到自由度是 n − k − 1 n-k-1 n−k−1,是因为有n个样本,k+1个约束
{ ∑ i = 1 n u i ^ = 0 ∑ i = 1 n x i j u i ^ = 0 , j = 1 , 2 , … , k \begin{cases} \sum_{i=1}^n\hat{u_i}=0\\ \sum_{i=1}^nx_{ij}\hat{u_i}=0,j=1,2,\ldots,k \end{cases} {∑i=1nui^=0∑i=1nxijui^=0,j=1,2,…,k
在MLR.1-MLR.5下,
E ( σ 2 ^ ) = σ 2 E(\hat{\sigma^2}) = \sigma^2 E(σ2^)=σ2
σ ^ \hat{\sigma} σ^称为回归标准误(SER)
对于上面的遗漏变量的方差的情形,我们也可以反过来看,看作在原本的方程中新增一个解释变量,此时 σ ^ \hat{\sigma} σ^可能增大或减小,这是因为新加一个解释变量, S S R SSR SSR会减小,而自由度也会减小,分子分母都减小;
而新增的解释变量的 β j ^ \hat{\beta_j} βj^的标准差为(后面做构造置信区间的时候有用)
s d ( β j ^ ) = σ [ S S T j ( 1 − R j 2 ) ] 1 / 2 sd(\hat{\beta_j}) = \frac{\sigma}{[SST_j(1-R_j^2)]^{1/2}} sd(βj^)=[SSTj(1−Rj2)]1/2σ
由于 σ \sigma σ未知,用估计量代替
s e ( β j ^ ) = σ ^ [ S S T j ( 1 − R j 2 ) ] 1 / 2 se(\hat{\beta_j}) = \frac{\hat{\sigma}}{[SST_j(1-R_j^2)]^{1/2}} se(βj^)=[SSTj(1−Rj2)]1/2σ^
上式称为 β j ^ \hat{\beta_j} βj^的标准误
注意
如果误差表现出异方差性,上式标准误就不是可靠估计量
通常会这样改写 s e ( β j ^ ) se(\hat{\beta_j}) se(βj^)
s e ( β j ^ ) = σ ^ n s d ( x j ) 1 − R j 2 se(\hat{\beta_j}) = \frac{\hat{\sigma}}{\sqrt{n}sd(x_j)\sqrt{1-R_j^2}} se(βj^)=nsd(xj)1−Rj2σ^
其中,
s d ( x j ) = ∑ i = 1 n ( x i j − x j ˉ ) n sd(x_j) = \sqrt{\frac{\sum_{i=1}^n(x_{ij}-\bar{x_j})}{n}} sd(xj)=n∑i=1n(xij−xjˉ)
这样的改写能说明样本量是以 1 n \frac{1}{\sqrt{n}} n1的速率使标准误收敛至零的;
在MLR.1-MLR.5的假定下,我们的得到的OLS估计量 β j ^ \hat{\beta_j} βj^是最优线性无偏估计量,总之就是,没有比他更好的估计量;