回归分析的几个问题:异方差性、自相关性、多重共线性

在 回归分析学习笔记(一):尽量详细且说人话 中介绍了经典回归分析的基本假设,如果假设条件不满足会出现一些问题,现在就来具体的介绍一下。对于我们分析的具体问题,叙述逻辑为:概念描述——产生原因——导致结果——补救措施。

基本假设

  • x 1 , . . . , x p x_1,...,x_p x1,...,xp 是确定性变量,不是随机变量;
  • 解释变量之间不相关,样本容量个数大于解释变量个数,即 X \boldsymbol X X的秩为 p+1
  • G a u s s − M a r k o v 条 件 { E ( ϵ i ) = 0 , i = 1 , 2 , . . . , n C o v ( ϵ i , ϵ j ) = { σ 2 , i = j 0 , i = j ( i , j = 1 , 2 , . . . n ) Gauss-Markov条件\begin{cases} E(\epsilon_i)=0, i=1,2,...,n\\ \\Cov(\epsilon_i,\epsilon_j)=\begin{cases} \sigma^2,i=j\\0,i=j\end{cases}(i,j=1,2,...n) \end{cases} GaussMarkovE(ϵi)=0,i=1,2,...,nCov(ϵi,ϵj)={σ2,i=j0,i=j(i,j=1,2,...n)
  • 正态分布的假定条件 { ϵ i ∼ N ( 0 , σ 2 ) ϵ 1 , ϵ 2 , . . . , ϵ n 相 互 独 立 \begin{cases}\epsilon_i\sim N(0,\sigma^2)\\ \\\epsilon_1,\epsilon_2,...,\epsilon_n相互独立\end{cases} ϵiN(0,σ2)ϵ1,ϵ2,...,ϵn

1 异方差性

1.1 基本概念

经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性, D ( ϵ i ) ≠ D ( ϵ j ) D(\epsilon_i)\neq D(\epsilon_j) D(ϵi)=D(ϵj)

1.2 产生原因

(1)模型中遗漏了某些解释变量
  如果模型中只包含所要研究的几个主要因素,其他被省略的因素对被解释变量的影响都归入了随机误差项,则可能使随机误差项产生异方差性。
(2)模型函数形式的设定误差
  在一般情况下,解释变量与被解释变量之间的关系是比较复杂的非线性关系。在构造模型时,为了简化模型,用线性模型代替了非线性关系,或者用简单的非线性模型代替了复杂的非线性关系,造成了模型关系不准确的误差。
(3)样本数据的测量误差
  一方面,样本数据的测量误差常随时间的推移而逐步积累,从而会引起随机误差项的方差增加。另一方面,随着时间的推移,抽样技术和其他收集资料方法的改进,也使得样本的测量误差逐步减少,从而引起随机误差的方差减小。因此,在时间序列资料中,由于在不同时期测量误差的大小不同,从而随机项就不具有同方差性。
(4)随机因素的影响。

1.3 问题结果

当存在异方差时,普通最小二乘估计会低估 β ^ \hat{\beta} β^的真实方差,进一步导致回归系数t检验值高估,使本来不显著的一些回归系数变成显著。所以,给应用效果带来一些影响:

  • 参数估计值是无偏的,但不是最小方差线性无偏估计。
  • 参数的显著性检验失效。
  • 回归方程的应用效果不理想。

1.4 诊断与补救

检验异方差性没有公认的最优方法,常用的方法主要有残差图分析法,等级相关系数检验法等,这些方法从本质上说思路都是相同的,即 设法检验 ϵ i \epsilon_i ϵi的方差与解释变量 x j x_j xj 的相关性

此处对残差图分析法进行一个简单的介绍。它以残差 e i e_i ei 为纵坐标,以其他适宜变量为横坐标画散点图,如果残差图上的点散布是随机的无任何规律,则认为符合假设。如果残差图上的点的散布呈现一定的趋势,具有明显的规律,则认为存在异方差。

回归分析的几个问题:异方差性、自相关性、多重共线性_第1张图片

当存在异方差问题时,就不能使用普通最小二乘法进行参数估计,需要对原来的模型进行变换,使变换后的模型符合同方差性假设。消除异方差性对建模的影响的方法主要有 加权最小二乘估计,Box-Cox变换法,方差稳定化变换法等。此处介绍最常用的加权最小二乘估计(WLS)。

在同方差的条件下,每个观测值的权重都相同。而异方差时,误差项方差 σ 2 \sigma^2 σ2大的观测值,作用就偏大,普通最小二乘估计的回归线会被拉向方差大的项,方差小的项拟合程度就差。加权最小二乘估计就是加入一个适当的权重,以调整各项在平方和中的作用。以一元线性回归为例,调整后的离差平方和为 Q ( β 0 , β 1 ) = ∑ i = 1 n w i ( y i − y i ^ ) 2 Q(\beta_0,\beta_1)=\sum_{i=1}^nw_i(y_i-\hat{y_i})^2 Q(β0,β1)=i=1nwi(yiyi^)2 其中, w i w_i wi是第 i 个观测值的权重,接下来就是寻找参数 β 0 , β 1 \beta_0,\beta_1 β0,β1 的估计值 β ^ 0 w , β ^ 1 w \hat{\beta}_{0w},\hat{\beta}_{1w} β^0w,β^1w 使离差平方和达到最小。此处,直接给出计算结果: { β ^ 0 w = y ‾ w − β ^ 1 w x ‾ w β ^ 1 w = ∑ i = 1 n w i ( x i − x ‾ w ) ( y i − y ‾ w ) ∑ i = 1 n w i ( x i − x ‾ w ) 2 \begin{cases} \hat{\beta}_{0w}=\overline{y}_w-\hat{\beta}_{1w}\overline{x}_w \\ \\\hat{\beta}_{1w}=\dfrac{\sum_{i=1}^nw_i(x_i-\overline{x}_w)(y_i-\overline{y}_w)}{\sum_{i=1}^nw_i(x_i-\overline{x}_w)^2} \end{cases} β^0w=ywβ^1wxwβ^1w=i=1nwi(xixw)2i=1nwi(xixw)(yiyw) 其中 x ‾ w = 1 ∑ w i ∑ w i x i \overline{x}_w=\frac{1}{\sum w_i}\sum w_ix_i xw=wi1wixi是自变量的加权平均, y ‾ w = 1 ∑ w i ∑ w i y i \overline{y}_w=\frac{1}{\sum w_i}\sum w_iy_i yw=wi1wiyi是因变量的加权平均,权重为误差项方差的倒数 w i = 1 σ i 2 w_i=\dfrac{1}{\sigma_i^2} wi=σi21

2 自相关性

2.1 基本概念

经典线性回归中假定随机误差项是不相关的,即 c o v ( ϵ i , ϵ j ) = 0 cov(\epsilon_i,\epsilon_j)=0 cov(ϵi,ϵj)=0,如果不满足该条件则称随机误差项之间存在自相关现象。注意这里的自相关不是值属性/特征/自变量之间具有相关关系,而是指一个变量前后其数值之间存在相关。

2.2 产生原因

(1)忽略遗漏了关键变量
  如果忽略了一个或一些重要变量,而这些重要变量在时间顺序上的影响是正相关的,回归模型中误差项就会具有明显的正相关,因为误差会包含一楼变量的影响。
  
(2)经济变量的滞后性
  例如国民收入、货币发行量等一般都有一定的滞后性,如前期消费额对后期消费额一般会有明显的影响。
  
(3)回归函数模型使用错误
  例如将应该用指数形式但是研究者误用了线性回归模型,此时误差项也表现出自相关性。
  
(4)蛛网现象
  蛛网现象是微观经济学中研究场频市场运行规律的名词,表示商品供给量受前一期价格影响而表现出某种规律性,由于规律性的作用,回归模型的误差项不再是随机的了。
  
(5)对数据加工整理而导致误差项之间产生自相关性
.

2.3 问题结果

  • 参数估计值不再具有最小方差线性无偏性;
  • 均方误差MSE可能严重低估误差项的方差;
  • 容易导致对 t 值1评价过高,t检验和F检验失效,将一些不显著的回归参数认定为显著;
  • 最小二乘估计量对抽样波动变得非常敏感。

2.4 诊断与补救

如何诊断随机扰动项是否存在序列相关性呢?主要有图示检验法、自相关系数法、DW检验等方法,此处简单介绍一下DW检验。

DW检验 是常用的检验序列相关的一种检验方法,但是它仅限于小样本的检验并且只能适用于随机扰动具有一阶自回归的情况。

具体的推导过程在此略过,一般的软件都可以自动给出D.W值,我们要会对其进行解读就可以了。DW值的取值范围为 [ 0 , 4 ] [0,4] [0,4] ,根据样本容量 n n n 和解释变量的数目 k k k (这里包括常数项)查DW分布表,得到临界值 d L d_L dL d U d_U dU,然后根据表中的规则进行判断。

分布 准则
0 ≤ D W ≤ d L 0\leq DW\leq d_L 0DWdL 误差项之间存在正自相关
d L < D W ≤ d U d_L< DW\leq d_U dL<DWdU 不能判定是否有自相关
d U < D W ≤ 4 − d U d_U< DW\leq4-d_U dU<DW4dU 误差项之间无自相关
4 − d U ≤ D W < 4 − d L 4-d_U\leq DW< 4-d_L 4dUDW<4dL 不能判定是否有自相关
4 − d L ≤ D W ≤ 4 4-d_L\leq DW\leq4 4dLDW4 误差项之间存在负自相关
回归分析的几个问题:异方差性、自相关性、多重共线性_第2张图片

DW检验的局限:

  • 有一个不能确定的区域,若DW值落入这个区域就无法判断。
  • DW统计量的上下界表要求n>15,因为样本量如果再小,利用残差就很难对自相关的存在性作出比较正确的判断。
  • 不适用于随机项具有高阶序列相关的检验。

如果存在自相关问题,可以用迭代法加以解决。
(迭代法的具体步骤空在这里先,打算另外补一补时间序列和序列相关等知识再回来填坑)

3 多重共线性

3.1 基本概念

在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量 x 1 , x 2 , … , x p x_1,x_2,…,x_p x1,x2,,xp中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,也即存在不全为0的p+1个数 c 0 , c 1 , . . . , c p c_0,c_1,...,c_p c0,c1,...,cp 使得 c 0 + c 1 x i 1 + c 2 x i 2 + . . . + c p x i p ≈ 0 c_0+c_1x_{i1}+c_2x_{i2}+...+c_px_{ip}\approx0 c0+c1xi1+c2xi2+...+cpxip0就称线性回归模型中存在多重共线性。

3.2 产生原因

在实际问题中,解释变量之间完全不相关的情形是少见的,自变量之间或多或少有一定的相关性,当相关性较弱时,一般认为符合多元线性回归模型设计矩阵的要求,否则认为是一种违背多元线性回归基本假设的情形。

3.3 解决方法

  1. 剔除一些不重要的解释变量;
  2. 增大样本容量;
  3. 采用有偏估计,如岭回归法、主成分法、偏最小二乘法等。

你可能感兴趣的:(机器学习,回归,统计学)