【计量经济学】多元回归分析

多元回归分析–潘登同学的计量经济学笔记

文章目录

    • 多元回归分析--潘登同学的计量经济学笔记
  • 多元线性回归模型
    • 普通最小二乘法得到OLS估计值
    • 对OLS回归方程的解释
    • 多元线性回归中"保持其他因素不变”的含义
    • OLS的拟合值和残差的性质(由单变量推广)
    • 对多元回归“排除其他变量影响”的解释
    • 拟合优度
  • 简单回归和多元回归估计值的比较
  • OLS估计值的期望值
    • 在回归模型中包含了无关变量
    • 遗漏变量的偏误:简单情形
    • 遗漏变量的偏误:一般情形
  • OLS估计量的方差
    • OLS方差的成分:多重共线性
      • 多重共线性的后果及修正措施
    • 衡量多重共线性的统计量
    • 遗漏变量模型中的方差
  • OLS估计量的标准误(估计 σ 2 \sigma^2 σ2)
  • OLS的有效性

多元线性回归模型

y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + u y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_kx_k + u y=β0+β1x1+β2x2++βkxk+u

  • 关键假定
    E ( u ∣ x 1 , x 2 , … , x k ) = 0 E(u|x_1,x_2,\ldots,x_k) = 0 E(ux1,x2,,xk)=0
    这个假定意味着方程中的不可观测的误差项中的所有因素都与解释变量无关。还意味着,我们已经正确地解释了被解释变量和解释变量之间的函数关系

普通最小二乘法得到OLS估计值

y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 + ⋯ + β k ^ x k \hat{y} = \hat{\beta_0} + \hat{\beta_1}x_1 + \hat{\beta_2}x_2 + \cdots + \hat{\beta_k}x_k y^=β0^+β1^x1+β2^x2++βk^xk

上式被称为OLS回归线或样本回归函数;

  • 目标:残差平方和最小
    arg min ⁡ ∑ i = 1 n ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) 2 \argmin \sum_{i=1}^n(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik}))^2 argmini=1n(yi(β0^+β1^xi1+β2^xi2++βk^xik))2

  • 对每个 β ^ \hat{\beta} β^求导
    { 2 ∑ i = 1 n ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) = 0 2 ∑ i = 1 n x i 1 ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) = 0 ⋯ 2 ∑ i = 1 n x i k ( y i − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 + ⋯ + β k ^ x i k ) ) = 0 \begin{cases} 2\sum_{i=1}^n(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\\ 2\sum_{i=1}^nx_{i1}(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\\ \cdots\\ 2\sum_{i=1}^nx_{ik}(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\\ \end{cases} 2i=1n(yi(β0^+β1^xi1+β2^xi2++βk^xik))=02i=1nxi1(yi(β0^+β1^xi1+β2^xi2++βk^xik))=02i=1nxik(yi(β0^+β1^xi1+β2^xi2++βk^xik))=0

上式通常被称为OLS的一阶条件;

对OLS回归方程的解释

(以两个解释变量为例,考虑如下OLS回归线)
y ^ = β 0 ^ + β 1 ^ x 1 + β 1 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_1}x_2 y^=β0^+β1^x1+β1^x2

估计值 β 1 ^ 和 β 2 ^ \hat{\beta_1}和\hat{\beta_2} β1^β2^具有偏效应:从方程中我们可以得到
△ y ^ = β 1 ^ △ x 1 + β 2 ^ △ x 2 \triangle\hat{y} = \hat{\beta_1}\triangle x_1 + \hat{\beta_2}\triangle x_2 y^=β1^x1+β2^x2
因此我们能在给定 x 1 与 x 2 x_1与x_2 x1x2的变化的情况下,预测 y y y的变化,特别地,当 x 2 x_2 x2固定,即 △ x 2 = 0 \triangle x_2=0 x2=0时,可以得到
△ y ^ = β 1 ^ △ x 1 \triangle\hat{y} = \hat{\beta_1}\triangle x_1 y^=β1^x1

这样的解释就是多元线性回归的有用之处了,所以我们得到 x 1 x_1 x1的系数可以解释为:在其他条件不变的情况下 x 1 对 y x_1对y x1y的影响,这样就能实现控制变量的目的。

多元线性回归中"保持其他因素不变”的含义

多元回归分析的作用:尽管不能在其他条件不变的情况下收集数据,但它提供的系数仍可做其他条件不变的解释。(其内在逻辑是:社会科学的数据往往不是在实验条件下获取的,往往不能保证一个量不变去分析另外一个变量,而多元回归分析可以实现这样的有效模拟)

OLS的拟合值和残差的性质(由单变量推广)

  • 1.残差的样本均值为零
    y ˉ = y ^ ˉ \bar{y} = \bar{\hat{y}} yˉ=y^ˉ
  • 2.每个解释变量与OLS残差的样本协方差为零,故OLS拟合值和OLS残差之间的样本协方差也为零
    ∑ i = 1 n x i j u i ^ = 0 ( j = 1 , 2 , … , k ) ∑ i = 1 n y i ^ u i ^ = 0 \sum_{i=1}^n x_{ij}\hat{u_i} = 0 (j=1,2,\ldots,k)\\ \sum_{i=1}^n \hat{y_{i}}\hat{u_i} = 0 \\ i=1nxijui^=0(j=1,2,,k)i=1nyi^ui^=0
  • 3.点 ( x 1 ˉ , x 2 ˉ , … , x k ˉ , y ˉ ) (\bar{x_1},\bar{x_2},\ldots,\bar{x_k},\bar{y}) (x1ˉ,x2ˉ,,xkˉ,yˉ)总是位于OLS回归线上
    y ˉ = β 0 ^ + β 1 ^ x 1 ˉ + β 2 ^ x 2 ˉ + ⋯ + β k ^ x k ˉ \bar{y} = \hat{\beta_0} + \hat{\beta_1}\bar{x_1} + \hat{\beta_2}\bar{x_2} + \cdots + \hat{\beta_k}\bar{x_k} yˉ=β0^+β1^x1ˉ+β2^x2ˉ++βk^xkˉ

对多元回归“排除其他变量影响”的解释

(以两个解释变量为例,考虑如下OLS回归线)
y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_2}x_2 y^=β0^+β1^x1+β2^x2

  • β 1 \beta_1 β1的一种表达形式
    β 1 ^ = ∑ i = 1 n r i 1 ^ y i ∑ i = 1 n r i 1 ^ 2 \hat{\beta_1} = \frac{\sum_{i=1}^n\hat{r_{i1}}y_i}{\sum_{i=1}^n\hat{r_{i1}}^2} β1^=i=1nri1^2i=1nri1^yi

其中, r i 1 ^ \hat{r_{i1}} ri1^是利用现有样本将 x 1 x_1 x1 x 2 x_2 x2进行简单回归的得到的OLS残差,然后再利用 y 对 r i 1 ^ y对\hat{r_{i1}} yri1^进行简单回归就能得到 β 1 ^ \hat{\beta_1} β1^

推导

x 1 x_1 x1 x 2 x_2 x2进行简单回归
x 1 ^ = α 0 ^ + α 1 ^ x 2 r i 1 ^ = x i 1 − x i 1 ^ \hat{x_1} = \hat{\alpha_0} + \hat{\alpha_1}x_2\\ \hat{r_{i1}}=x_{i1}-\hat{x_{i1}} x1^=α0^+α1^x2ri1^=xi1xi1^
x i 1 ^ + r i 1 ^ \hat{x_{i1}} + \hat{r_{i1}} xi1^+ri1^代替 x i 1 x_{i1} xi1带回方程
y ^ = β 0 ^ + β 1 ^ ( x i 1 ^ + r i 1 ^ ) + β 2 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}(\hat{x_{i1}} + \hat{r_{i1}}) + \hat{\beta_2}x_2 y^=β0^+β1^(xi1^+ri1^)+β2^x2
对上式进行一整套OLS的一阶条件,现只考虑对 β 1 ^ \hat{\beta_1} β1^求偏导的步骤
∑ i = 1 n ( x i 1 ^ + r i 1 ^ ) ( y ^ − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 ) ) = 0 \sum_{i=1}^n(\hat{x_{i1}} + \hat{r_{i1}})(\hat{y}-(\hat{\beta_0}+\hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2}))=0 i=1n(xi1^+ri1^)(y^(β0^+β1^xi1+β2^xi2))=0
因为 x i 1 ^ \hat{x_{i1}} xi1^是解释变量 x i 2 x_{i2} xi2的线性函数,根据性质2,有 ∑ i = 1 n x i 1 ^ u i ^ = 0 \sum_{i=1}^n\hat{x_{i1}}\hat{u_i} = 0 i=1nxi1^ui^=0
∑ i = 1 n r i 1 ^ ( y ^ − ( β 0 ^ + β 1 ^ x i 1 + β 2 ^ x i 2 ) ) = 0 \sum_{i=1}^n\hat{r_{i1}}(\hat{y}-(\hat{\beta_0}+ \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2}))=0 i=1nri1^(y^(β0^+β1^xi1+β2^xi2))=0
又因为 r i 1 ^ \hat{r_{i1}} ri1^ x 1 对 x 2 x_1对x_2 x1x2的回归残差,有 ∑ i = 1 n x i 2 u i ^ = 0 \sum_{i=1}^n{x_{i2}}\hat{u_i} = 0 i=1nxi2ui^=0, ∑ i = 1 n u i ^ = 0 \sum_{i=1}^n\hat{u_i} = 0 i=1nui^=0
∑ i = 1 n r i 1 ^ ( y ^ − β 1 ^ x i 1 ) = ∑ i = 1 n r i 1 ^ ( y ^ − β 1 ^ ( x i 1 ^ + r i 1 ^ ) ) = 0 \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}x_{i1}) = \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}(\hat{x_{i1}} + \hat{r_{i1}})) =0 i=1nri1^(y^β1^xi1)=i=1nri1^(y^β1^(xi1^+ri1^))=0
又因为 r i 1 ^ \hat{r_{i1}} ri1^ x 1 对 x 2 x_1对x_2 x1x2的回归残差,有 ∑ i = 1 n x i 1 r i 1 ^ = 0 \sum_{i=1}^n{x_{i1}}\hat{r_{i1}} = 0 i=1nxi1ri1^=0
β 1 ^ \hat{\beta_1} β1^是下式的解:
∑ i = 1 n r i 1 ^ ( y ^ − β 1 ^ r i 1 ^ ) = 0 ⇒ β 1 ^ = ∑ i = 1 n r i 1 ^ y i ∑ i = 1 n r i 1 ^ 2 \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}\hat{r_{i1}}) =0\\ \Rightarrow \hat{\beta_1} = \frac{\sum_{i=1}^n\hat{r_{i1}}y_i}{\sum_{i=1}^n\hat{r_{i1}}^2} i=1nri1^(y^β1^ri1^)=0β1^=i=1nri1^2i=1nri1^yi

  • β 1 \beta_1 β1的另一种偏效应解释

    残差 r i 1 ^ \hat{r_{i1}} ri1^ x i 1 x_{i1} xi1中与 x i 2 x_{i2} xi2不相关的部分(或者说 r i 1 ^ \hat{r_{i1}} ri1^排除了 x i 2 x_{i2} xi2影响之后的部分),于是 β 1 \beta_1 β1度量了在排除 x i 2 x_{i2} xi2影响之后 y 和 x 1 y和x_1 yx1之间的样本关系。更一般地,在有k个解释变量的一般模型中, r ^ \hat{r} r^来自 x 1 x_1 x1 x 2 , … , x k x_2,\ldots,x_k x2,,xk的回归,于是 β 1 ^ \hat{\beta_1} β1^度量的是,在排除 x 1 x_1 x1 x 2 , … , x k x_2,\ldots,x_k x2,,xk等变量的影响后, x 1 对 y x_1对y x1y的影响。排除的结果通常被称为弗里施-沃定理

拟合优度

S S T ≡ ∑ i = 1 n ( y i − y ˉ ) 2 S S E ≡ ∑ i = 1 n ( y i ^ − y ˉ ) 2 S S R ≡ ∑ i = 1 n u i ^ 2 SST \equiv \sum_{i=1}^n (y_i - \bar{y})^2\\ SSE \equiv \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\\ SSR \equiv \sum_{i=1}^n \hat{u_i}^2 SSTi=1n(yiyˉ)2SSEi=1n(yi^yˉ)2SSRi=1nui^2
同理,有
S S T = S S E + S S R SST = SSE + SSR SST=SSE+SSR
拟合优度 R 2 R^2 R2
R 2 ≡ S S E S S T = 1 − S S R S S T R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST} R2SSTSSE=1SSTSSR
可以证明: R 2 R^2 R2等于 y i y_i yi实际值与其拟合值 y i ^ \hat{y_i} yi^的相关系数的平方
R 2 ≡ ( ∑ i = 1 n ( y i − y ˉ ) ( y i ^ − y ^ ˉ ) ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 ∑ i = 1 n ( y i ^ − y ^ ˉ ) 2 R^2 \equiv \frac{(\sum_{i=1}^n(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}}))^2}{\sum_{i=1}^n(y_i-\bar{y})^2\sum_{i=1}^n(\hat{y_i}-\bar{\hat{y}})^2} R2i=1n(yiyˉ)2i=1n(yi^y^ˉ)2(i=1n(yiyˉ)(yi^y^ˉ))2

简单回归和多元回归估计值的比较

(以两个解释变量为例)

如果 y y y只对 x 1 x_1 x1进行简单回归
y ~ = β 0 ~ + β 1 ~ x 1 \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 y~=β0~+β1~x1
而对 x 1 和 x 2 x_1和x_2 x1x2进行多元回归
y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_2}x_2 y^=β0^+β1^x1+β2^x2

β 1 ~ \tilde{\beta_1} β1~通常不等于 β 1 ^ \hat{\beta_1} β1^,而存在如下关系:
β 1 ~ = β 1 ^ + β 2 ^ δ 1 ~ \tilde{\beta_1} = \hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1} β1~=β1^+β2^δ1~
其中, δ 1 ~ \tilde{\delta_1} δ1~ x 2 对 x 1 x_2对x_1 x2x1进行简单回归的斜率系数

但在下列两种情形下, β 1 ~ \tilde{\beta_1} β1~会与 β 1 ^ \hat{\beta_1} β1^相等:

  • 1.样本中 x 2 对 y x_2对y x2y的偏效应为0,即 β 2 ^ = 0 \hat{\beta_2}=0 β2^=0
  • 2.样本中 x 1 和 x 2 x_1和x_2 x1x2不相关,即 δ 1 ~ = 0 \tilde{\delta_1}=0 δ1~=0

OLS估计值的期望值

有4个假定,因为简单线性模型也可以写作MLR,后面就用MLR来表示

  • 假定

    • MLR.1 (线性于参数)
      总 体 模 型 y = β 0 + β 1 x + u 总体模型\\ y = \beta_0 + \beta_1x + u y=β0+β1x+u

    • MLR.2 (随机抽样)

      横截面数据的样本都是随机抽样的结果

    • MLR.3 (不存在完全共线性)

      在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系,举几个例子

      • 这个可以:
        y = β 0 + β 1 x + β 2 x 2 + u y = \beta_0 + \beta_1x + \beta_2x^2 + u y=β0+β1x+β2x2+u
      • 这个不行:
        y = β 0 + β 1 log ⁡ ( x ) + β 2 log ⁡ ( x 2 ) + u y = \beta_0 + \beta_1\log(x) + \beta_2\log(x^2) + u y=β0+β1log(x)+β2log(x2)+u
      • 这个也不行:
        y = β 0 + β 1 e x p a n d A + β 2 e x p a n d B + β 3 e x p e n s e T o t a l + u y = \beta_0 + \beta_1 expand_A + \beta_2 expand_B + \beta_3 expense_{Total} + u y=β0+β1expandA+β2expandB+β3expenseTotal+u
    • MLR.4 (零条件均值)
      E ( u ∣ x 1 , x 2 , … , x k ) = 0 E(u|x_1,x_2,\ldots,x_k) = 0 E(ux1,x2,,xk)=0

    当假定4成立时,我们常说具有外生解释变量;但若 x j 与 u x_j与u xju相关,那么 x j x_j xj就称为内生解释变量;
    定理 OLS估计量的无偏性

在MLR.1至MLR.4下,下式对总体参数 β j \beta_j βj的任意值都成立
E ( β j ^ ) = β j , j = 0 , 1 , … , k E(\hat{\beta_j}) = \beta_j,j=0,1,\ldots,k E(βj^)=βj,j=0,1,,k

注意: 不能说一个估计值是无偏的,因为一个估计值就是从一组特定样本得到的一个固定值;我们只能说保持MLR.1至MLR.4假定的估计值的程序是无偏的,所以认为我们的估计也是无偏的;

在回归模型中包含了无关变量

前提:满足MLR.1至MLR.4假设

模型:
y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + u y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + u y=β0+β1x1+β2x2+β3x3+u
其中, x 3 x_3 x3是无关变量;

结论:不会影响OLS估计量的无偏性
E ( β 0 ^ ) = β 0 E ( β 1 ^ ) = β 1 E ( β 2 ^ ) = β 2 E ( β 3 ^ ) = 0 E({\hat{\beta_0}}) = \beta_0\\ E({\hat{\beta_1}}) = \beta_1\\ E({\hat{\beta_2}}) = \beta_2\\ E({\hat{\beta_3}}) = 0\\ E(β0^)=β0E(β1^)=β1E(β2^)=β2E(β3^)=0

遗漏变量的偏误:简单情形

(遗漏了一个实际上应包括在真实(总体)模型中的变量)

  • 误设分析(遗漏了一个重要变量)

假设总体模型:
y = β 0 + β 1 x 1 + β 2 x x + u y = \beta_0 + \beta_1x_1 + \beta_2x_x + u y=β0+β1x1+β2xx+u

而现在模型:
y ~ = β 0 ~ + β 1 ~ x 1 + u \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 + u y~=β0~+β1~x1+u

由前面(简单回归与多元回归的比较)
β 1 ~ = β 1 ^ + β 2 ^ δ 1 ~ \tilde{\beta_1} = \hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1} β1~=β1^+β2^δ1~
推导 b i a s ( β 1 ~ ) bias(\tilde{\beta_1}) bias(β1~)
E ( β 1 ~ ) = E ( β 1 ^ + β 2 ^ δ 1 ~ ) = E ( β 2 ^ ) + E ( β 2 ^ ) δ 1 ~ = β 1 + β 2 δ 1 ~ ⇒ b i a s ( β 1 ~ ) = E ( β 1 ~ ) − β 1 = β 2 δ 1 ~ E(\tilde{\beta_1}) = E(\hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1}) =E(\hat{\beta_2})+E(\hat{\beta_2})\tilde{\delta_1} = \beta_1 + \beta_2\tilde{\delta_1}\\ \Rightarrow bias(\tilde{\beta_1}) = E(\tilde{\beta_1}) - \beta_1 = \beta_2\tilde{\delta_1} E(β1~)=E(β1^+β2^δ1~)=E(β2^)+E(β2^)δ1~=β1+β2δ1~bias(β1~)=E(β1~)β1=β2δ1~
称为遗漏变量偏误,此时的偏误源自遗漏的解释变量 x 2 x_2 x2

由于 δ 1 ~ \tilde{\delta_1} δ1~ x 1 和 x 2 x_1和x_2 x1x2之间的样本协方差与 x 1 x_1 x1的样本方差之比

  • x 1 与 x 2 x_1与x_2 x1x2不相关,那 δ 1 ~ = 0 \tilde{\delta_1}=0 δ1~=0

重要理解)换句话说,若 E ( x 2 ∣ x 1 ) = E ( x 2 ) E(x_2|x_1) = E(x_2) E(x2x1)=E(x2),那么 β 1 ~ \tilde{\beta_1} β1~的无偏性无须以 x 2 x_{2} x2为条件;于是在估计 b e t a 1 beta_1 beta1时,只需调整截距,将 x 2 x_2 x2放到误差项中就不违背误差项条件均值为零的假定’

  • 补充:遗漏变量 x 2 x_2 x2, β 1 ~ \tilde{\beta_1} β1~的偏误表
C o r r ( x 1 , x 2 ) > 0 Corr(x_1,x_2)>0 Corr(x1,x2)>0 C o r r ( x 1 , x 2 ) < 0 Corr(x_1,x_2)<0 Corr(x1,x2)<0
β 2 > 0 \beta_2>0 β2>0 偏误为正 偏误为负
β 2 < 0 \beta_2<0 β2<0 偏误为负 偏误为正

在经济学经验研究时,与偏误相关联的术语:

  • E ( β 1 ~ ) > β 1 E(\tilde{\beta_1})>\beta_1 E(β1~)>β1时,有向上的偏误
  • E ( β 1 ~ ) < β 1 E(\tilde{\beta_1})<\beta_1 E(β1~)<β1时,有向下的偏误
  • 还有向零的偏误,表示估计值相对于真值更接近零

遗漏变量的偏误:一般情形

更一般地,我们讨论k个变量下,遗漏了第l个变量的情形

假设总体模型:
y = β 0 + β 1 x 1 + ⋯ + β k x k + u y = \beta_0 + \beta_1x_1 + \cdots + \beta_kx_k + u y=β0+β1x1++βkxk+u

现在的模型: 遗漏变量 x l x_l xl,对第j个变量有,

β j ~ = β j ^ + β l ^ δ j ~ = β j ^ + β l ^ ∑ i = 1 n ( x i j − x j ˉ ) ∑ i = 1 n ( x i l − x l ˉ ) ∑ i = 1 n ( x i j − x j ˉ ) 2 \begin{aligned} \tilde{\beta_j} &= \hat{\beta_j} + \hat{\beta_l}\tilde{\delta_j}\\ &= \hat{\beta_j} + \hat{\beta_l}\frac{\sum_{i=1}^n(x_{ij}-\bar{x_j})\sum_{i=1}^n(x_{il}-\bar{x_l})}{\sum_{i=1}^n(x_{ij}-\bar{x_j})^2} \end{aligned} βj~=βj^+βl^δj~=βj^+βl^i=1n(xijxjˉ)2i=1n(xijxjˉ)i=1n(xilxlˉ)
其中, δ j ~ \tilde{\delta_j} δj~ x l x_l xl x j x_j xj简单回归得到的系数

还是两个例外,除非 β l = 0 或 δ j ~ = 0 \beta_l=0或\tilde{\delta_j}=0 βl=0δj~=0,否则 β j ~ \tilde{\beta_j} βj~就是 β j \beta_j βj的有偏估计

OLS估计量的方差

在MLR.1-MLR.4的基础上再加入一个同方差假定

  • MLR.5 (同方差性)
    给定解释变量的任何值,误差都具有相同的方差
    V a r ( u ∣ x 1 , x 2 , … , x k ) = σ 2 Var(u|x_1,x_2,\ldots,x_k) = \sigma^2 Var(ux1,x2,,xk)=σ2

MLR.1-MLR.5被称为横截面回归的高斯-马尔科夫假定

结论:(抽样方差)
V a r ( β j ^ ) = σ 2 S S T j ( 1 − R j 2 ) Var(\hat{\beta_j}) = \frac{\sigma^2}{SST_j(1-R_j^2)} Var(βj^)=SSTj(1Rj2)σ2

其中, R j 2 R_j^2 Rj2 x j x_j xj对其他所有自变量进行回归,得到的 R 2 R^2 R2,而 S S T j SST_j SSTj衡量的是 x j x_j xj的总样本的波动

OLS方差的成分:多重共线性

V a r ( β j ^ ) Var(\hat{\beta_j}) Var(βj^)是由3个因素影响: σ 2 , S S T j 和 R j 2 \sigma^2,SST_j和R_j^2 σ2,SSTjRj2

  • 误差方差 σ 2 \sigma^2 σ2: σ 2 \sigma^2 σ2是总体的一个特征,与样本容量无关(对给定的y,只能通过增加更多的解释变量来减少误差)
  • x j x_j xj的总样本波动 S S T j SST_j SSTj x j x_j xj的样本波动越大越好(与简单回归类似)
  • 自变量之间的线性关系 R j 2 R_j^2 Rj2: R j 2 R_j^2 Rj2越接近1,则表示其他变量解释了 x j x_j xj的大部分波动,那么就相当于去掉了 x j x_j xj

V a r ( β j ^ ) Var(\hat{\beta_j}) Var(βj^)的最小值条件:

  • 1.给定 σ 2 , S S T j \sigma^2,SST_j σ2,SSTj
  • 2. x j x_j xj与其他解释变量的样本相关系数为0

所以我们的解释变量两两间越无关拟合效果越好,这与我们在做PCA时,选取的变量两两正交一致;

  • 多重共线性则指的是与之相反的情形
    R j 2 → 1 , 则 V a r ( β j ^ ) → ∞ R_j^2 \rightarrow 1,则Var(\hat{\beta_j})\rightarrow \infty Rj21Var(βj^)
    特别地, R j 2 = 1 R_j^2 = 1 Rj2=1当这样就违反了我们的MLR.3

注意 有时候多重共线性对我们的分析没有太大影响,假如一个含有3个解释变量的回归模型,其中 x 2 与 x 3 x_2与x_3 x2x3高度相关,那么 V a r ( β 2 ^ ) 与 V a r ( β 3 ^ ) Var(\hat{\beta_2})与Var(\hat{\beta_3}) Var(β2^)Var(β3^)都很大,但若 x 1 与 x 2 、 x 3 x_1与x_2、x_3 x1x2x3无关,无论 x 2 与 x 3 x_2与x_3 x2x3如何相关, V a r ( β 1 ^ ) = σ 2 S S T 1 Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_1} Var(β1^)=SST1σ2,我们只关心的是 β 1 \beta_1 β1

多重共线性的后果及修正措施

  • 对于完全的多重共线性,后果是无法估计
  • 对于高度多重共线性,理论上不影响OLS估计量的最优线性无偏性。但对于个别样本的估计量的方差放大,从而影响了假设检验(t检验和F检验)

实际后果:

  • 回归结果联合显著,但个别系数不显著
  • 估计量的方差放大,置信区间变宽,t统计量变小
  • 对于样本内观测值的微小变化极为敏感
  • 某些系数的符号可能不对,难以解释解释变量对被解释变量的贡献程度

补救措施:

  • 剔除不重要变量
  • 增加样本数量
  • 改变模型形式
  • 进行变量替换
  • 利用先验信息
  • 其他方法

衡量多重共线性的统计量

  • 方差膨胀因子(VIF)
    V I F j = 1 1 − R j 2 VIF_j = \frac{1}{1-R_j^2} VIFj=1Rj21
    一般会选用10作为临界值,越小越好

V a r ( β 1 ^ ) Var(\hat{\beta_1}) Var(β1^)可以表示为
V a r ( β 1 ^ ) = σ 2 S S T j V I F j Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_j}VIF_j Var(β1^)=SSTjσ2VIFj

遗漏变量模型中的方差

(遗漏了一个实际上应包括在真实(总体)模型中的变量)

假设总体模型:
y = β 0 + β 1 x 1 + β 2 x x + u y = \beta_0 + \beta_1x_1 + \beta_2x_x + u y=β0+β1x1+β2xx+u

而现在模型:
y ~ = β 0 ~ + β 1 ~ x 1 + u \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 + u y~=β0~+β1~x1+u

则有:
V a r ( β 1 ^ ) = σ 2 S S T 1 ( 1 − R 1 2 ) , V a r ( β 1 ~ ) = σ 2 S S T 1 Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_1(1-R_1^2)},Var(\tilde{\beta_1}) = \frac{\sigma^2}{SST_1} Var(β1^)=SST1(1R12)σ2,Var(β1~)=SST1σ2

  • 1.若 x 1 与 x 2 x_1与x_2 x1x2不相关, β 1 ^ 和 β 1 ~ \hat{\beta_1}和\tilde{\beta_1} β1^β1~就是同一个估计量
  • 2.若 x 1 与 x 2 x_1与x_2 x1x2相关,(即 1 − R 2 < 1 1-R^2 < 1 1R2<1)
    • β 2 ≠ 0 \beta_2\neq0 β2=0, β 1 ~ \tilde{\beta_1} β1~有偏, β 1 ^ \hat{\beta_1} β1^无偏,且 V a r ( β 1 ~ ) < V a r ( β 1 ^ ) Var(\tilde{\beta_1})Var(β1~)<Var(β1^)

      解释:而 β 2 ≠ 0 \beta_2\neq0 β2=0,不把 x 2 x_2 x2放到模型里面就会导致 β 1 \beta_1 β1的估计量有偏误,但放进去又会增大方差,所以这是一个权衡问题,而两个有利的原因让我在模型中包括 x 2 x_2 x2

      • 1. β 1 ~ \tilde{\beta_1} β1~中的偏误不会随着样本容量的扩大而缩减,但随着n的增大, V a r ( β 1 ~ ) 、 V a r ( β 1 ^ ) Var(\tilde{\beta_1})、Var(\hat{\beta_1}) Var(β1~)Var(β1^)都会缩小至零( β 1 ~ \tilde{\beta_1} β1~存在永远无法克服的无偏性问题,但随着n增大, β 1 ~ \tilde{\beta_1} β1~的一致性就能被满足)
      • 2.如果不把 x 2 x_2 x2放到模型里面就会误差项因为包含了 x 2 x_2 x2而导致误差方差提高,这样就导致 V a r ( β 1 ~ ) Var(\tilde{\beta_1}) Var(β1~)的分子扩大,从而大小比较不确定,这需要进一步讨论;但是更简单的理解是,这样就破坏了MLR.5的同方差假定;
    • β 2 = 0 \beta_2=0 β2=0, β 1 ~ \tilde{\beta_1} β1~ β 1 ^ \hat{\beta_1} β1^都无偏,且 V a r ( β 1 ~ ) < V a r ( β 1 ^ ) Var(\tilde{\beta_1})Var(β1~)<Var(β1^)

      解释:说明如果 x 2 对 y x_2对y x2y没有偏效应,那么将它放到模型里,只会增加多重共线性,从而导致 β 1 \beta_1 β1的估计量效率较低,估计量方差较高。

OLS估计量的标准误(估计 σ 2 \sigma^2 σ2)

按照简单回归的思路:因为 σ 2 = E ( u 2 ) \sigma^2 = E(u^2) σ2=E(u2),但我们无法观测到误差项,用残差代替误差

  • σ 2 \sigma^2 σ2的无偏估计量
    σ 2 ^ = ∑ i = 1 n u i 2 ^ n − k − 1 = S S R n − k − 1 \hat{\sigma^2} = \frac{\sum_{i=1}^n\hat{u_i^2}}{n-k-1} = \frac{SSR}{n-k-1} σ2^=nk1i=1nui2^=nk1SSR

注意到自由度是 n − k − 1 n-k-1 nk1,是因为有n个样本,k+1个约束
{ ∑ i = 1 n u i ^ = 0 ∑ i = 1 n x i j u i ^ = 0 , j = 1 , 2 , … , k \begin{cases} \sum_{i=1}^n\hat{u_i}=0\\ \sum_{i=1}^nx_{ij}\hat{u_i}=0,j=1,2,\ldots,k \end{cases} {i=1nui^=0i=1nxijui^=0,j=1,2,,k

  • σ 2 \sigma^2 σ2的无偏估计量

在MLR.1-MLR.5下,
E ( σ 2 ^ ) = σ 2 E(\hat{\sigma^2}) = \sigma^2 E(σ2^)=σ2

σ ^ \hat{\sigma} σ^称为回归标准误(SER)

对于上面的遗漏变量的方差的情形,我们也可以反过来看,看作在原本的方程中新增一个解释变量,此时 σ ^ \hat{\sigma} σ^可能增大或减小,这是因为新加一个解释变量, S S R SSR SSR会减小,而自由度也会减小,分子分母都减小;

而新增的解释变量的 β j ^ \hat{\beta_j} βj^的标准差为(后面做构造置信区间的时候有用)
s d ( β j ^ ) = σ [ S S T j ( 1 − R j 2 ) ] 1 / 2 sd(\hat{\beta_j}) = \frac{\sigma}{[SST_j(1-R_j^2)]^{1/2}} sd(βj^)=[SSTj(1Rj2)]1/2σ
由于 σ \sigma σ未知,用估计量代替
s e ( β j ^ ) = σ ^ [ S S T j ( 1 − R j 2 ) ] 1 / 2 se(\hat{\beta_j}) = \frac{\hat{\sigma}}{[SST_j(1-R_j^2)]^{1/2}} se(βj^)=[SSTj(1Rj2)]1/2σ^
上式称为 β j ^ \hat{\beta_j} βj^的标准误

注意 如果误差表现出异方差性,上式标准误就不是可靠估计量

通常会这样改写 s e ( β j ^ ) se(\hat{\beta_j}) se(βj^)
s e ( β j ^ ) = σ ^ n s d ( x j ) 1 − R j 2 se(\hat{\beta_j}) = \frac{\hat{\sigma}}{\sqrt{n}sd(x_j)\sqrt{1-R_j^2}} se(βj^)=n sd(xj)1Rj2 σ^

其中,
s d ( x j ) = ∑ i = 1 n ( x i j − x j ˉ ) n sd(x_j) = \sqrt{\frac{\sum_{i=1}^n(x_{ij}-\bar{x_j})}{n}} sd(xj)=ni=1n(xijxjˉ)

这样的改写能说明样本量是以 1 n \frac{1}{\sqrt{n}} n 1的速率使标准误收敛至零的;

OLS的有效性

在MLR.1-MLR.5的假定下,我们的得到的OLS估计量 β j ^ \hat{\beta_j} βj^最优线性无偏估计量,总之就是,没有比他更好的估计量;

你可能感兴趣的:(计量经济学,回归,概率论,统计学)