【更新日志】
4/5/2020 对文章中公式与排版的部分错误进行修正
在前面的文章中,我们介绍了多元线性回归模型的两种参数估计。对于模型:
y i = β 0 + ∑ j = 1 p x i j β j + ϵ i , i = 1 , . . . , N y_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i , \ i=1,...,N yi=β0+j=1∑pxijβj+ϵi, i=1,...,N ϵ = ( ϵ i ) N × 1 ∼ N ( 0 , I n σ 2 ) \bm{\epsilon} = (\epsilon_i)_{N \times 1} \thicksim N(0,\bm{I_n}\sigma^2) ϵ=(ϵi)N×1∼N(0,Inσ2)
利用最小二乘估计法(OLS)得到的参数估计量为:
β ^ O L S = ( X T X ) − 1 X T y \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^OLS=(XTX)−1XTy σ ^ O L S = 1 N − p − 1 ( y − X β ^ O L S ) T ( y − X β ^ O L S ) \bm{\hat \sigma} _{OLS} = \sqrt{ \frac {1 } {N-p-1} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) } σ^OLS=N−p−11(y−Xβ^OLS)T(y−Xβ^OLS)
而利用极大似然估计法(ML)得到的参数估计量为:
β ^ M L = ( X T X ) − 1 X T y \bm{\hat\beta}_{ML} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^ML=(XTX)−1XTy σ ^ M L = 1 N ( y − X β ^ M L ) T ( y − X β ^ M L ) \bm{\hat \sigma} _{ML} = \sqrt{ \frac { 1 } {N} ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} )^T ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{ML} ) } σ^ML=N1(y−Xβ^ML)T(y−Xβ^ML)其中:
β = [ β 0 β 1 ⋮ β p ] ( p + 1 ) × 1 , y = [ y 0 y 1 ⋮ y N ] N × 1 , X = [ 1 x 11 … x 1 p 1 x 21 … x 2 p ⋮ ⋮ ⋱ ⋮ 1 x N 1 … x N p ] N × ( p + 1 ) \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots\\ \beta_p \end{bmatrix}_{(p+1) \times1}, \space \space \space \space \space \bm{y} = \begin{bmatrix} y_0 \\ y_1 \\ \vdots\\ y_N \end{bmatrix}_{N \times1}, \space \space \space \space \space \bm{X} = \begin{bmatrix} \space 1 \space\space x_{11} \space\space \dots \space\space x_{1p} \\ \space 1 \space\space x_{21} \space\space \dots \space\space x_{2p} \\ \vdots \space \space\space \space \space \vdots \space \space \space \space \space ⋱ \space \space \space \space \vdots\\ \space 1 \space\space x_{N1} \space\space \dots \space\space x_{Np} \end{bmatrix}_{N \times (p+1)} β=⎣⎢⎢⎢⎡β0β1⋮βp⎦⎥⎥⎥⎤(p+1)×1, y=⎣⎢⎢⎢⎡y0y1⋮yN⎦⎥⎥⎥⎤N×1, X=⎣⎢⎢⎢⎡ 1 x11 … x1p 1 x21 … x2p⋮ ⋮ ⋱ ⋮ 1 xN1 … xNp⎦⎥⎥⎥⎤N×(p+1)
在这两种方法中,最小二乘估计法是我们最为常用的参数估计方法,原因有二:其一,以残差平方和作为评判超平面拟合好坏的指标比较直观,也易于理解;其二,最小二乘估计参数具有良好的估计量性质。此外,以残差平方和构建代价函数(Cost Function)的方法在机器学习领域十分常见,我们会在后面的Lasso回归和Ridge回归之中继续体会其中的奥妙。
在本章中,我们来继续探索利用最小二乘估计量在性质上究竟具有什么样的优势吧~
由于参数估计量是总体参数的估计值,因此估计量必然与总体参数之间存在一定的“误差”。如果,我们如何衡量一个参数的估计量是好是坏呢?我们可以从以下这几个性质入手:
这里想编一个射击小游戏来说明,但是有点费脑筋,等编好了再补充上来吧。
参数估计量的 无偏性(unbiasedness) 是指,在多次试验中,用总体的某参数估计值的平均值与该总体参数的真实值“没有偏差”。用数学语言来描述则可以表达为:若一个总体参数 β 的估计量 β^ 是无偏估计量,则该估计量应满足:
E [ β ^ ] = β E[\bm{\hat\beta}] = \bm\beta E[β^]=β
参数估计量的 一致性(Consistency) 是指,当样本数量足够大的时候,总体参数的估计值以某种意义收敛到该参数真值,即:
β ^ → n → ∞ 在 某 种 意 义 下 β \bm{\hat\beta} \xrightarrow[n\rarr\infin]{在某种意义下} \bm\beta β^在某种意义下n→∞β
(1)若 β^ 依概率收敛于 β ,则称 β^ 为 β 的弱一致估计;
(2)若 β^ 以概率1收敛于 β ,则称 β^ 为 β 的强一致估计;
注1:无偏性是一种小样本性质,而一致性则是一种大样本性质;
注2:一致估计又称为相合估计或相容估计。
参数估计量的 有效性(Validness) 是指,在参数的任意一无偏估计量中,该无偏估计量的方差最小,即:
若
E [ β ^ ] = β E[\bm{\hat\beta}]= \bm\beta E[β^]=β且 ∀ β ~ ∈ { β ~ : E [ β ~ ] = β } var [ β ^ ] ≤ var [ β ~ ] \forall \bm{\tilde\beta} \in \{ \bm{\tilde\beta}: E[\bm{\tilde\beta}]= \bm\beta \} \\ \text{var}[\bm{\hat\beta}] \le \text{var}[\bm{\tilde\beta}] ∀β~∈{ β~:E[β~]=β}var[β^]≤var[β~]
则称 β^ 是 β 的 有效估计量(Valid Estimator)。
为了保证后续证明的严谨性,本文列出一些比较重要的引理。在实际应用过程中可以忽略这些引理的证明过程而直接使用其结论。
【引理1 期望线性性】 对于任一 n 阶随机向量 y 与 m × n 线性变换矩阵 A ,m 阶随机向量 Ay 有:
E [ A y ] = A E [ y ] E[\bm{A}\bm{y}]=\bm{A}E[\bm{y}] E[Ay]=AE[y]
Proof:
由于随机变量(向量)的期望由Riemann-Stieltjes积分定义:
E [ y ] = ∫ y d F ( y ) E[\bm{y}]=\int\bm{y}\ d\bm{F}( \bm{y} ) E[y]=∫y dF(y)
其中,F(·)为随机变量(向量)的分布集函数。
由Riemann-Stieltjes积分的线性性,可以证明:
E [ A y ] = ∫ A y d F ( y ) = A ∫ y d F ( y ) = A E [ y ] E[\bm{Ay}]=\int\bm{Ay}\ d\bm{F}( \bm{y} )= \bm{A}\int\bm{y}\ d\bm{F}( \bm{y} ) = \bm{A}E[\bm{y}] E[Ay]=∫Ay dF(y)=A∫y dF(y)=AE[y]
Q.E.D.
注:有关Riemann-Stieltjes积分的定义与运算性质可以参考相关文献
【引理2 协方差半线性性】 对于任一 n 阶随机向量 x 和 y,与两 m × n 线性变换矩阵 A 和 B ,有:
cov ( A x , B y ) = A cov ( x , y ) B T \text{cov} (\bm{Ax},\bm{By})= \bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T cov(Ax,By)=Acov(x,y)BT
Proof:
cov ( A x , B y ) = E [ ( A x − E [ A x ] ) ( B y − E [ B y ] ) T ] = E [ ( A x − A E [ x ] ) ( B y − B E [ y ] ) T ] = A E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] B T = A cov ( x , y ) B T \text{cov} (\bm{Ax},\bm{By}) \\ =E[(\bm{Ax}-E[\bm{Ax}])(\bm{By}-E[\bm{By}])^T] \\ =E[(\bm{Ax}-\bm{A}E[\bm{x}])(\bm{By}-\bm{B}E[\bm{y}])^T] \\ =\bm{A}E[(\bm{x}-E[\bm{x}])(\bm{y}-E[\bm{y}])^T]\bm{B}^T \\ =\bm{A}\text{cov} (\bm{x},\bm{y})\bm{B}^T cov(Ax,By)=E[(Ax−E[Ax])(By−E[By])T]=E[(Ax−AE[x])(By−BE[y])T]=AE[(x−E[x])(y−E[y])T]BT=Acov(x,y)BT
Q.E.D.
【引理3 矩阵迹运算的性质】 对于任意 m × n 与 n × m 阶实矩阵 A 和 B ,其迹运算(trace)满足:
t r ( A B ) = t r ( B A ) tr(AB)=tr(BA) tr(AB)=tr(BA)
Proof:
根据矩阵乘法与迹运算的定义:
t r ( A B ) = ∑ i = 1 m ∑ j = 1 n a i , j b j , i tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} tr(AB)=i=1∑mj=1∑nai,jbj,i t r ( B A ) = ∑ j = 1 n ∑ i = 1 m b j , i a i , j tr(BA) = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j} tr(BA)=j=1∑ni=1∑mbj,iai,j
由乘法交换律和加法分配律易得:
t r ( A B ) = ∑ i = 1 m ∑ j = 1 n a i , j b j , i = ∑ j = 1 n ∑ i = 1 m b j , i a i , j = t r ( B A ) tr(AB) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i,j} b_{j,i} = \sum_{j=1}^{n} \sum_{i=1}^{m} b_{j,i} a_{i,j} = tr(BA) tr(AB)=i=1∑mj=1∑nai,jbj,i=j=1∑ni=1∑mbj,iai,j=tr(BA)
Q.E.D.
若模型的正态性假设成立,即:
ϵ ∼ N ( 0 , I n σ 2 ) \bm{\epsilon} \thicksim N(0,\bm{I_n}\sigma^2) ϵ∼N(0,Inσ2)
则有:
y = X β + ϵ ∼ N ( X β , I n σ 2 ) \bm{y} = \bm{X} \bm\beta + \bm\epsilon \thicksim N( \bm{X} \bm\beta, \bm{I_n}\sigma^2) y=Xβ+ϵ∼N(Xβ,Inσ2)
因此,在给定自变量的条件下,y 服从于均值为 Xβ,协方差矩阵为 Inσ2 的条件正态分布。
又因为 β^OLS 满足:
β ^ O L S = ( X T X ) − 1 X T y \bm{\hat\beta}_{OLS} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} β^OLS=(XTX)−1XTy
故 β^OLS 关于因变量 y 的 线性变换(Linear Transformation)。由正态分布的性质可知, β^OLS 服从正态分布,且其均值有:
E [ β ^ O L S ] = E [ ( X T X ) − 1 X T y ] = ( X T X ) − 1 X T E [ y ] = ( X T X ) − 1 X T X β = β E[\bm{\hat\beta}_{OLS} ] = E[ ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y} ] \\ \hspace{4em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T E[\bm{y} ] \\ \hspace{3.75em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{X} \bm\beta \\ \hspace{-3.5em} = \bm\beta E[β^OLS]=E[(XTX)−1XTy]=(XTX)−1XTE[y]=(XTX)−1XTXβ=β
其方差有:
var [ β ^ O L S ] = var [ ( X T X ) − 1 X T y ] = cov [ ( X T X ) − 1 X T y , ( X T X ) − 1 X T y ] = ( X T X ) − 1 X T cov [ y , y ] X ( X T X ) − 1 = σ 2 ( X T X ) − 1 X T I n X ( X T X ) − 1 = σ 2 ( X T X ) − 1 \text{var} [\bm{\hat\beta}_{OLS}] \\ \hspace{3.25em} = \text{var} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7em} = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ \hspace{7.25em} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} [\bm{y}, \bm{y}] \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{7.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{I}_n \bm{X} ( \bm{X}^T \bm{X} )^{-1} \\ \hspace{-0.25em} = \sigma^2 ( \bm{X}^T \bm{X} )^{-1} var[β^OLS]=var[(XTX)−1XTy]=cov[(XTX)−1XTy,(XTX)−1XTy]=(XTX)−1XTcov[y,y]X(XTX)−1=σ2(XTX)−1XTInX(XTX)−1=σ2(XTX)−1
至此,可以说明:在方差正态性满足的前提下,β^OLS 满足:
β ^ O L S ∼ N ( β , σ 2 ( X T X ) − 1 ) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLS∼N(β,σ2(XTX)−1)
由4.1中的论述,我们知道 β^OLS 是因变量 y 的线性表示,而 y 又是误差项 ϵ 的线性表示。实际上:
cov ( y , ϵ ) = cov ( X β + ϵ , ϵ ) = I n σ 2 \text{cov} (\bm{y}, \bm\epsilon) = \text{cov} (\bm{X}\bm\beta + \bm\epsilon, \bm\epsilon) =\bm{I}_n\sigma^2 cov(y,ϵ)=cov(Xβ+ϵ,ϵ)=Inσ2
因此,β^OLS 与误差项 ϵ 存在相关关系,其协防矩阵有:
cov ( β ^ , ϵ ) = cov [ ( X T X ) − 1 X T y , ϵ ] = ( X T X ) − 1 X T cov ( y , ϵ ) = σ 2 ( X T X ) − 1 X T \text{cov} (\bm{\hat\beta},\bm\epsilon) = \text{cov} [( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}, \epsilon] \\ = (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \text{cov} (\bm{y}, \bm\epsilon) \\ = \sigma ^ 2( \bm{X}^T \bm{X} )^{-1} \bm{X}^T cov(β^,ϵ)=cov[(XTX)−1XTy,ϵ]=(XTX)−1XTcov(y,ϵ)=σ2(XTX)−1XT
首先,我们来证明,β^OLS是β的无偏估计量。
实际上,由4.1中的证明,我们已经得到:
E [ β ^ O L S ] = β E[\bm{\hat\beta}_{OLS} ] = \bm\beta E[β^OLS]=β
因此,最小二乘估计量 β^OLS 是 β 的无偏估计量。
注:由于 β 的最小二乘法估计量与极大似然估计量在表达形式上相等,因此极大似然估计量 β^ML 也是 β 的无偏估计量
下面,让我们继续证明, β^OLS 是 β 的弱一致估计量,在某些特定条件下,β^OLS 是 β 的强一致估计量。由于估计量的一致性证明过程较为艰深冗长,详细的证明过程与结论可以参考文献[1]:线性回归估计相合性问题的新进展.
βOLS 的有效性可以由 高斯-马尔科夫定理(Gauss-Markov Theorm) 证得。
【Gauss-Markov定理】 在 β 的所有线性无偏估计量中, β^OLS 是方差最小的线性无偏估计量。
Proof:
假设 cTy 是 β 的一个线性无偏估计量,其中, cT = (XTX)-1XT + D,D 为一常矩阵。则有:
E [ c T y ] = [ ( X T X ) − 1 X T + D ] X β = ( I + D X ) β = β E[\bm{c}^T\bm{y}] = [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] \bm{X \beta} \\ =(\bm{I+DX} )\bm\beta =\bm\beta E[cTy]=[(XTX)−1XT+D]Xβ=(I+DX)β=β
因此可知:
D X = 0 \bm{DX} =\bm{0} DX=0
而:
var ( c T y ) = c T var ( y ) c = σ 2 c T c = σ 2 [ ( X T X ) − 1 X T + D ] [ ( X T X ) − 1 X T + D ] T = σ 2 [ ( X T X ) − 1 + D D T ] ≥ σ 2 ( X T X ) − 1 = var ( β ^ ) \text{var}(\bm{c}^T\bm{y}) =\bm{c}^T \text{var}(\bm{y}) \bm{c} =\sigma^2 \bm{c}^T \bm{c} \\ \\ \hspace{5em} = \sigma^2 [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}] [(\bm{X^TX})^{-1} \bm{X}^T + \bm{D}]^T \\ =\sigma^2 [(\bm{X^TX})^{-1} +\bm{D}\bm{D}^T] \\ \ge \sigma^2 (\bm{X^TX})^{-1} = \text{var}(\hat{\bm{\beta}}) var(cTy)=cTvar(y)c=σ2cTc=σ2[(XTX)−1XT+D][(XTX)−1XT+D]T=σ2[(XTX)−1+DDT]≥σ2(XTX)−1=var(β^)
Q.E.D.
我们先将σ^2OLS的表达式进行变型:
( N − p − 1 ) σ ^ O L S 2 = ( y − X β ^ O L S ) T ( y − X β ^ O L S ) = [ y − X ( X T X ) − 1 X T y ] T [ y − X ( X T X ) − 1 X T y ] = y T [ I N − X ( X T X ) − 1 X T ] T [ I N − X ( X T X ) − 1 X T ] y = y T [ I N − X ( X T X ) − 1 X T ] y = ( X β + ϵ ) T [ I N − X ( X T X ) − 1 X T ] ( X β + ϵ ) = β T X T [ I N − X ( X T X ) − 1 X T ] X β ( 1 ) + ϵ T [ I N − X ( X T X ) − 1 X T ] X β ( 2 ) + β T X T [ I N − X ( X T X ) − 1 X T ] ϵ ( 3 ) + ϵ T [ I N − X ( X T X ) − 1 X T ] ϵ ( 4 ) (N-p-1)\hat \sigma _{OLS}^2 \\ = ( \bm{y} - \bm{X} \bm{\hat{\beta}}_{OLS} )^T ( \bm{y} -\bm{X} \bm{\hat{\beta}}_{OLS} ) \\ = [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}]^T [\bm{y} - \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}] \\ = \bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ]^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =\bm{y}^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{y} \\ =(\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} )^T [\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] (\bm{\bm{X}\bm{\beta} + \bm{\epsilon}} ) \\ = \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(1) \\ + \bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{X}\bm{\beta} \hspace{3em}(2) \\ + \bm{\beta}^T\bm{X}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(3) \\ +\bm{\epsilon}^T[\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ] \bm{\epsilon}\hspace{3em}(4) (N−p−1)σ^OLS2=(y−Xβ^OLS)T(y−Xβ^OLS)=[y−X(XTX)−1XTy]T[y−X(XTX)−1XTy]=yT[IN−X(XTX)−1XT]T[IN−X(XTX)−1XT]y=yT[IN−X(XTX)−1XT]y=(Xβ+ϵ)T[IN−X(XTX)−1XT](Xβ+ϵ)=βTXT[IN−X(XTX)−1XT]Xβ(1)+ϵT[IN−X(XTX)−1XT]Xβ(2)+βTXT[IN−X(XTX)−1XT]ϵ(3)+ϵT[IN−X(XTX)−1XT]ϵ(4)
至此,我们将的表达式分成了四个部分。容易计算:第(1)项、第(2)项和第(3)项均 恒为0 。因此:
σ ^ O L S 2 = 1 ( N − p − 1 ) ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} σ^OLS2=(N−p−1)1ϵT(IN−X(XTX)−1XT)ϵ
根据引理3关于迹运算的性质,以及迹运算与期望运算的相容性:
E [ ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ ] = E [ t r { ( I N − X ( X T X ) − 1 X T ) ϵ ϵ T } ] = t r { ( I N − X ( X T X ) − 1 X T ) E [ ϵ ϵ T ] } = t r { ( I N − X ( X T X ) − 1 X T ) I N σ 2 } = σ 2 [ t r { I N } − t r { X ( X T X ) − 1 X T } ] = σ 2 [ t r { I N } − t r { X T X ( X T X ) − 1 } ] = σ 2 [ t r { I N } − t r { I ( p + 1 ) } ] = ( N − p − 1 ) σ 2 E[\bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon}] \\ = E[tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} \bm{\epsilon}^T \}] \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) E[ \bm{\epsilon} \bm{\epsilon}^T ] \} \\ = tr\{(\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{I}_N \sigma^2 \} \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{X}^T\bm{X} (\bm{X}^T \bm{X} )^{-1} \} ] \\ =\sigma^2 [ tr\{\bm{I}_N \} - tr\{\bm{I}_{(p+1)} \} ] \\ = (N-p-1)\sigma^2 E[ϵT(IN−X(XTX)−1XT)ϵ]=E[tr{ (IN−X(XTX)−1XT)ϵϵT}]=tr{ (IN−X(XTX)−1XT)E[ϵϵT]}=tr{ (IN−X(XTX)−1XT)INσ2}=σ2[tr{ IN}−tr{ X(XTX)−1XT}]=σ2[tr{ IN}−tr{ XTX(XTX)−1}]=σ2[tr{ IN}−tr{ I(p+1)}]=(N−p−1)σ2
因此:
E [ σ ^ O L S 2 ] = σ 2 E[\hat \sigma _{OLS}^2] =\sigma^2 E[σ^OLS2]=σ2
至此,我们证得:σ^2OLS 是 σ2 的无偏估计量。
注1:显然,σ^2ML 不是 σ2 的无偏估计 ;
注2:需要特别注意的是,σ^OLS 不是 σ 的无偏估计量(这里的平方号不能少)。
从 σ^2OLS 的表达式:
σ ^ O L S 2 = 1 ( N − p − 1 ) ϵ T ( I N − X ( X T X ) − 1 X T ) ϵ \hat \sigma _{OLS}^2 = \frac{1}{(N-p-1)} \bm{\epsilon}^T (\bm{I}_N- \bm{X} (\bm{X}^T \bm{X} )^{-1} \bm{X}^T ) \bm{\epsilon} σ^OLS2=(N−p−1)1ϵT(IN−X(XTX)−1XT)ϵ
可以看出,σ^2OLS 是关于误差项 ϵ 的二次型。因此,容易证明: σ^2OLS/ σ2 服从自由度为 N - p - 1的卡方分布,即:
( N − p − 1 ) σ ^ O L S 2 σ 2 ∼ χ N − p − 1 2 \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1} σ2(N−p−1)σ^OLS2∼χN−p−12
至此,通过一系列冗长但富有启发性的证明,我们从 无偏性、一致性 和 有效性 这三个角度,对多元线性回归模型的最小二乘估计量 β^OLS 与 σ^2OLS 的质量进行了评判,得到的结论如下:
(1)β^OLS 是 β 的 最优线性无偏估计量 (Best Linear Unbiased Estimator,BLUE),即其具有 无偏性、一致性与有效性。
(2)σ^2OLS 是 σ2 的 无偏估计量(Unbiased Estimator)。
同时,在误差项满足正态性假设的条件下,我们推导出了 β^OLS 与 σ^2OLS 所服从的分布:
β ^ O L S ∼ N ( β , σ 2 ( X T X ) − 1 ) \bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLS∼N(β,σ2(XTX)−1) ( N − p − 1 ) σ ^ O L S 2 σ 2 ∼ χ 2 ( N − p − 1 ) \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2(N-p-1) σ2(N−p−1)σ^OLS2∼χ2(N−p−1)
但是,得到这两个分布有啥用啊?那就且听我们下回分解。
至此,我们解决了模型的参数估计,以及所估计参数的相关性质,并给出了参数估计量的分布。但是,我们还有一堆问题还没有解决:
(1)估计出来的模型好不好?有没有效呢?
(2)估计出来的模型是否满足模型的基本假设条件呢?不满足可咋办呢?
(3)如何利用估计出来的模型进行预测呢?预测的准确性有多高呢?
(4)下次更新是不是又得一年后啊?
在下一篇文章中,就让我们利用参数的区间估计与假设检验,来看看我们拟合出来的模型到底有没有用。
[1] 线性回归估计相合性问题的新进展 .
欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀!
有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: [email protected]
谢谢大家!