Y=β0+β1X1+β2X2+⋯+βnXn+e
2.1 严格最小二乘估计(OLS)的条件和假设
注:学者认为,至少大于30个,最好100个以上就可以算大样本了
而且,以上部分假设和条件在一定条件下是可以放松的。
2.2 放松的OLS假设:大样本OLS
假设1、2、6、7、8是必须的(线性性、不存在共线性、不受强离群值影响、样本量充足是必须得);
假设3、4、5会做在一定程度的放松;即残差的球形假定(独立、正态、等方差)相对放松。
stata回归命令
regression Y X1 X2 X3……Xn
reg Y X1 i.X2 X3……Xn / 若存在分类变量,在变量名称前加上i. 即可,如i.X2;stata 里面的命令可以缩写,只要缩写不产生歧义即可;
条件/假设
1. 假设1的判断:直接看,possion回归等需要验证(已经不属于简单的多元线性回归了);
2.线性性的判断: 分别做Y与每个X之间的散点图、拟合图。不满足时可以转换数据,加平方项、三次方项、分段回归等;
scatter Y X1
scatter Y X2
……
lowess Y X1
lowess Y X2
3. 自相关的判断:如果抽样没问题,不是时间序列数据,一般不会有自相关。若针对时间序列数据,可以如下检验;
如果原数据不是时间序列数据,则需要自行定义一个:
gen n=_n / 生成一个时间序列的标志变量n
tsset n / 将这个数据集定义为依据时间序列标志变量n定义的时间序列数据
检验方法
(1) 绘制残差图
predict e,r / 生成残差值
scatter eLe / 生成残差散点图
(2) DW检验(杜宾-瓦特森检验)
estat dwatson / 杜宾-瓦特森检验
若DW值在1.8-2.2之间时接受原假设,说明模型不存在一阶自相关,若DW值接近0或4,则拒绝原假设,认为存在一阶自相关。若落在模糊区域,则无法判断。
DW接近2,残差间相关性差
DW接近0,残差间正相关
DW接近4,残差负相关
(3)BG检验
estat bgodfrey / BG检验
若输出的P-Value显著小于0.05,则拒绝原假设,认为存在序列相关。
4. 残差方差齐性的判断:残差的方差齐下,用异方差检验、绘制残差图等;
white检验
imtest,white / white检验
如果输出的P-Value显著小于0.05,则拒绝原假设,认为存在异方差性。
残差图
reg Y X1 X2…… / 先做完回归
rvfplot
5. 残差正态性:绘制标准化残差的直方图、茎叶图、正态概率分布图(PP图)等;
残差的偏度、峰度等
predict residual_1 , residual / 得到残差,取名residual_1
histogram residual_1 / 方法1. 绘制直方图看看
sum residual_1 ,detail / 方法2. 可以选择通过偏度、峰度来看
qnorm residual_1 / 方法3 ,QQ图
sktest residual_1 / 正态性检验 也可以用 swilk residual_1, sfrancia residual_1等
6. 多重共线性:VIF检验;
estat vif / 方差扩大因子法检验
VIF需要用在线性回归之后,若为logistic回归,先替换为线性回归,做完再做vif检验。
一般认为:
VIF≥3,有多重共线性;
VIF≥6,比较严重多重共线性
VIF≥10,非常严重的多重共线性;
7. 异常值检验:变量描述、箱式图;
graph box Y / 方法1 , 绘制Y的箱式图
sum Y,detail / 方法2 , 对Y进行详细描述
当然,绘制散点图的时候就能发现异常值。
1. 不满足线性关系:用非线性回归模型,或变量转换、加多次项(平方项、三次方项)、分段回归等
2. 不满足残差独立性:自回归(Autoregressive model,简称ARM)、广义估计方程(Generalized Estimated Equation, GEE,多层线性模型(multi-level analysis model)
3. 不满足残差方差齐性、正态性:使用稳健标准差、 加权最小二乘法(Weighted Least Squares,WLS)、分层回归(hierarchical multiple regression)等
4. 不满足多重共线性:剔除部分自变量、逐步回归法选择变量、岭回归(Ridge Regression)等
5. 样本量不足:增加样本含量
当然,以上假设和条件在一定条件下是可以放松的。
推荐阅读:
正态性/方差齐性检验stata实现
stata学习笔记
博客持续更新
主要参考
陈强 计量经济学
医咖会
知乎
其他互联网资料