维刚

第2章-回归模型(2)-模型诊断

简介

上一节，我们研究了回归模型的线性定义，假设条件，参数估计，以及基于统计学检验的模型评价。但是这并不是意味着我们的回归模型以及可以投入使用，进行决策了。我们还需要在计量经济学的基础上验证模型，当模型出现多重共线性、异方差、序列相关等等问题时，我们需要如何应对与处理。

接下来我们来分别针对不同的情况看进行处理

正文

一，异方差(Heteroscedasticity)

(一) 异方差的介绍

在线性回归模型中，我们假定残差项是同方差的，如果该假定明显背离真实值，则
残差的正态分布假设也将失效。因此通常带来一些问题：

参数估计的有效性和渐近线失效
参数的显著性检验实效
回归方程应用效果极不理想

(二) 异方差的诊断

1，图示法
构建残差图 Y-e

2，假设检验

（1）Halbort White检验

如果存在异方差，说明回归残差项与解释变量X存在某些形式的联系
那么用残差平方对解释变量X，以及解释变量的平方项、交叉乘积项构建辅助回归模型，如果辅助模型显著，则说明存在异方差问题

检验思想

假设对于二元回归模型有 $y_i=β_0+β_1x_1+β_2x_2+\epsilon_i$
辅助回归模型 $\epsilon_i^2=α_0+α_1x_1+α_2x_2+α_3x_1^2+α_4x_2^2++α_5x_1x_2+v_i$
根据辅助模型建立方差分析F统计量
F统计量如果拒绝原假设( $H_0:α_1=α_2=...=α_k=0$ )，则说明存在异方差

（2）Breush Pagan 检验

检验思想与White检验基本相似，辅助回归模型不同

运用OLS估计回归方程 $y_i=β_0+β_1x_1...++β_kx_k+\epsilon_i$
根据得到的残差项构建辅助回归模型 $\epsilon_i^2=α_0+α_1x_1...++α_kx_k+v_i$
根据辅助模型建立方差分析F统计量
F统计量如果拒绝原假设( $H_0:α_1=α_2=...=α_k=0$ )，则说明存在异方差

（3）同理，我们可以根据构建不同形式的辅助回归模型，通过其F检验来判断是否存在不同形式的异方差问题

(三) 异方差的处理

加权最小二乘法WLS

我们令 $w_i = 1/\sigma^{2}_{i}$ ，构建下面对角矩阵

$\textbf{W}=\left( \begin{array}{cccc} w_{1} & 0 & \ldots & 0 \\ 0& w_{2} & \ldots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0& 0 & \ldots & w_{n} \\ \end{array} \right)$

$\textbf{W}Y=\textbf{W}Xβ+\textbf{W}\epsilon$

$Y^*=\textbf{W}Y$
$X^*=\textbf{W}Xβ$
$\epsilon^*=\textbf{W}\epsilon$

则，WLS结果如下：

$\hat{\beta}_{WLS}=\arg\min_{\beta}\sum_{i=1}^{n}\epsilon_{i}^{*2}\\ =(\textbf{X}^{T}\textbf{W}\textbf{X})^{-1}\textbf{X}^{T}\textbf{W}\textbf{Y}$

二，多重共线性

(一) 多重共线性的介绍

多重共线性有两种

基于结构共线性：数学效应引起的，比如解释变量有 $X,X^2,X^3$ 导致的
基于数据的共线性：不同变量的数据之间存在隐含的联系导致的

(二) 多重共线性的诊断

1，相关矩阵

2，方差扩大化因子(variance inflation factors ,VIF)

$VIF_k=\frac{1}{1-R_{k}^{2}}$

VIF>10就认为存在多重共线性

(三) 多重共线性的处理

1，基于数据的共线性：增加样本数据，看是否能减少变量之间的相关性
2，基于结构的共线性：尝试将数据中心化
3，去掉部分变量
4，提取主成分

三，序列相关

(一) 序列相关的介绍

序列相关问题，与时间序列的自回归相似。

一个AR(2)的自回归模型如下：
$y_{t}=\beta_{0}+\beta_{1}y_{t-1}+\beta_{2}y_{t-2}+\epsilon_{t}$

同理如果回归方程中没有被选中的变量是有序列相关的，那么可能导致残差项产生序列相关的问题。

$\epsilon_{t}=\rho\epsilon_{t-1}+\omega_{t}$
如果 $\rho$ 显著，则说明存在序列相关的问题

(二) 序列相关的诊断

1，图示法 $e_t,e_{t-1}$
2，回归检验法

如果残差回归的系数显著，则说明存在序列相关的问题
$μ_i=\rho_1μ_{i-1}+\rho_2μ_{i-2}+...+\rho_lμ_{i-l}+\epsilon_i$

3，D-W检验 (Durbin-Watson Test)

针对方程
$\epsilon_{t}=\rho\epsilon_{t-1}+\omega_{t}$

假设检验
$H_{0}: \rho=0 \\ H_{A}: \rho\neq 0$

构造统计量
$D=\frac{\sum_{t=2}^{n}(e_{t}-e_{t-1})^{2}}{\sum_{t=1}^{n}e_{t}^{2}}$

D的统计值在0-4之间

D	0	2	4
P	1	0	-1

只适合于一阶情形
不适用于同时存在异方差和序列相关模型

2，Ljung-Box Q Test

$H_0: k个滞后期的自相关系数都是0$
$H_1: k个滞后期的自相关系数不都是0$

$Q_{k}=n(n+2)\sum_{j=1}^{k}\frac{{r}^{2}_{j}}{n-j}$

$Q_{k}服从\chi^{2}_{k}分布$

(三) 序列相关的处理

1，广义差分

如果残差存在一阶序列相关，则可以把数据进行一阶差分，然后再进行OLS估计
当然可以推广到广义差分：
如果原模型存在
$μ_i=\rho_1μ_{i-1}+\rho_2μ_{i-2}+...+\rho_lμ_{i-l}+\epsilon_i$

则广义差分回归模型为：
$y_i-\rho_1y_{i-1}-\rho_2y_{i-2}-...-\rho_ly_{i-l}=β_0(1-\rho_1-\rho_2-...-\rho_l)+β_1(X_1-\rho_1X_1-\rho_2X_2-...-\rho_lX_l)+..+\epsilon_i$

根据广义差分模型估计得到的参数，可以解决所有类型的自相关问题。

备注：广义差分需要得到具体的 $\rho_i$ 值

2，Cochrane-Orcutt迭代法

（1）先估计出回归模型的参数 $Y = β X + μ$
（2）再估计出 $μ_i=\rho_1μ_{i-1}+\rho_2μ_{i-2}+...+\rho_lμ_{i-l}+\epsilon_i$ 的参数 $\rho_i$
（3）代入广义差分模型
（4）重复上面的步骤直到第二步的 $\rho_i$ 不在显著或相邻两次迭代的数值差异小于某个精度时，终止循环
（5）一般迭代两次即可，所以又叫Cochrane-Orcutt两步法

四，异常数据

(一) 异常数据的介绍

1，对于异常数据，有下面三种情况：

分类	定义	说明
异常点(outliers)	对于正常的X来说，Y值偏离总体趋势	Y极端值
高杠杆点(leverage points)	不仅Y，X也偏离总体，要么很大要么很小	X极端值
强影响点(influential observations)	凡是能够影响到模型推断、斜率等回归分析中各阶段的影响点	其他极端的情况

2，异常点示例

下图，红色的点，明显脱离总体趋势，所以可以被认为是异常点，但是因为x值并不异常，所以不是高杠杆点。

但是，红色的点是强影响点嘛？我们对比包含和剔除异常点后的回归线，以及回归模型的结果进行判断。

包含红色样本点

不包含红色样本点

由于，仅拟合优度提升了估计量的标准差变好了，但是斜率参数变化不大，且均显著；所以，该样本点不是强影响点。

3，高杠杆点示例

下图中的红色样本点，虽然，y保持了总体的趋势，但是x是个异常值，所以是个高杠杆点。

同理我们依然可以通过对比有无高杠杆点的回归线，以及回归模型的结果进行判断。

回归方程结果-略
可以判断，该点不是强影响点。

4，强影响点示例

同理，我们可以推断，下图中的红点，不仅仅是异常点、高杠杆点，而且还是强影响点，因为使得斜率发生了较大的偏离，拟合优度以及显著性推断的值也发生了较大的变化。

(二) 异常数据的诊断

1，x极端值的判断-高杠杆点

通过线性代数的角度求解线性回归模型的过程：
$Y = X β + μ$
$β=(X'X)^{-1}X'Y$

$\hat Y=Xβ$
$\hat Y=X(X'X)^{-1}X'Y$

令 $H=X(X'X)^{-1}X'$ ，则
$\hat Y=HY$

改写成方程的形式：
$\hat y_i = h_{i1}y_1 +h_{i2}y_2+...+h_{in}y_n$ , for i = 1,…,n
杠杆参数 $\hat y_i$

一般当 $h_{ij} > 3 (\frac{\sum h_{ij}}{n})=3 (\frac{p}{n})$ 时，认为可能出现高杠杆点的情况。
其中，p表示参数的个数，包括截距项。

2，y极端值的判断-异常值

通过学生化的残差值，进行判断

通过残差值 $e_i=y_i-\hat{y}_i$
我们做如下变换
$r_{i}=\frac{e_{i}}{s(e_{i})}=\frac{e_{i}}{\sqrt{MSE(1-h_{ii})}}$

$r_{i}$ 超过3的被认为是异常点

待改进：当异常点对模型产生了很大的影响，甚至将回归曲线“拉向自己”的时候，则上述这种“internally studentized residual”内部的学生化误差就起不到判断的作用了。

我们建立外部的学生化误差“externally studentized residuals”：

定义
$d_i=y_i-\hat{y}_{(i)}$
其中，
$y_i$ 对应的依旧是第i个样本观测值

$\hat{y}_{(i)}$ 则代表，剔除第i个观测点后建立的回归模型，再代入第i个点解释变量值得到的预测结果

举例

去除第四个点的(i=4)回归模型，得到的第四个点( $x_4=10,y=2.1$ )的预测值，如下
$\hat{y}_{(4)}=0.6+1.55x=0.6+1.55*10=16.1$

则 $d_4=y_4-\hat{y}_{(4)}=2.1-16.1=-14$

外部的学生化误差记为：

$t_i=\frac{d_i}{s(d_i)}=\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}$

结果依旧是与3相比较， $t_i＞3$ 的认为是异常点。

3，强影响点的判断

定义Cook’s distance

$D_i=\frac{(y_i-\hat{y}_i)^2}{p \times MSE}\left[ \frac{h_{ii}}{(1-h_{ii})^2}\right]$

其中，
$y_i$ 对应的依旧是第i个样本观测值

$\hat{y}_{(i)}$ 则代表，剔除第i个观测点后建立的回归模型，再代入第i个点解释变量值得到的预测结果

p 表示参数的个数，包括截距项

判断：
当 $D_i$ 值大于0.5，则仅仅有可能是
当 $D_i$ 值大于1，则非常有可能是
当 $D_i$ 与其他值比非常抢眼，则基本可以确定就是

(三) 异常数据的处理

如果是录入错误或收集错误，则改正
如果其他原因，基本都是直接删除

上一节：第2章-回归模型(1)-线性回归模型与估计
下一节：第2章-回归模型(3)-模型筛选

参考
1，https://newonlinecourses.science.psu.edu/stat501/node/337/

你可能感兴趣的:(【从模型到算法】)

异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

第2章-回归模型(2)-模型诊断

简介

正文

一，异方差(Heteroscedasticity)

二，多重共线性

三，序列相关

备注：广义差分需要得到具体的 ρ i \rho_i ρi​值

四，异常数据

y ^ ( i ) \hat{y}_{(i)} y^​(i)​则代表，剔除第i个观测点后建立的回归模型，再代入第i个点解释变量值得到的预测结果

y ^ ( i ) \hat{y}_{(i)} y^​(i)​则代表，剔除第i个观测点后建立的回归模型，再代入第i个点解释变量值得到的预测结果

你可能感兴趣的:(【从模型到算法】)

备注：广义差分需要得到具体的 $\rho_i$ 值

$\hat{y}_{(i)}$ 则代表，剔除第i个观测点后建立的回归模型，再代入第i个点解释变量值得到的预测结果

$\hat{y}_{(i)}$ 则代表，剔除第i个观测点后建立的回归模型，再代入第i个点解释变量值得到的预测结果