建模之多元线性回归分析

关于回归的基础知识

1.回归分析用来研究变量X和Y之间的相关性
2.Y俗称因变量,即核心变量:连续数值型变量,0-1型变量,定序变量(数字代表了程度),计数变量(到访的次数),生存变量(年龄)。 X为解释变量,Y为被解释变量。
3.回归分析的目的:识别重要的解释变量,判断相关性的方向,估计权重(即回归系数)。
4.回归分析的分类:

建模之多元线性回归分析_第1张图片5.数据的分类:横截面数据,时间序列数据,面板数据。(本次的多元回归分析用于解决横截面数据)
6.对于线性的理解:有的模型可以通过变量代换进行转换成线性模型。如含有平方项和交互项的模型。(所以一个模型中可以含有一个变量的多种形式,如平方,三次方,交互项。因为在回归中各个解释变量之间可以有相关性)
7.注意模型构建成功之后,要对模型进行解释,如回归系数的解释:在保持其它变量不变的情况下, x i xi xi每增加一个单位,因变量增加(或减少)多少个单位。
8.关于内生性:遗漏变量会导致内生性,即同一个解释变量前后回归系数变化很大,导致模型分析不准确,不满足无偏和一致性(样本数足够多时,拟合值会趋近于观测值的期望)
y = β 0 + β 1 x 1 + β 2 x 2 + ∧ + β k x k + u y=\beta 0+\beta1 x_{1}+\beta 2x_{2}+\wedge +\beta kx_{k}+u y=β0+β1x1+β2x2++βkxk+u
u为无法观测且满足一定条件的扰动项,其中包含了所有与Y有关但是没有添加到回归模型中的变量。如果这些变量与我i们已经添加的自变量相关,则会存在内生性·。
使用蒙纳卡罗模拟发现某一自变量与u的相关系数越大,回归系数的估计值与正确值偏差越大。
9.模型无内生性不显示,可以弱化。将解释变量分为两类,一类是核心解释变量(我们所关注的变量),一类是控制变量。在实际应用中,只要保证核心解释变量与u不相关即可。
10.对变量取对数构造新的变量,
(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取 了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。
11.对四类模型回归系数的解释:
一元线性回归。
双对数模型:x每增加1%,y平均变化b%
半对数模型:x每增加1个单位,y平均变化(100b)%(对y取对数)
半对数模型:x每增加1%,y平均变化b/100。(对x取对数)
12.在回归中对定性变量的解释
虚拟变量的引入(0-1型变量)
定性变量前的回归系数是在控制其他变量不变的情况下,该虚拟变量与对照组的差异。
为了避免多重共线性的影响引入虚拟变量的个数是分类数-1。
加入虚拟变量使用软件Stata回归,stata会自动检测完全多重共线性问题
注意整理表格,修改字体,不要直接把截图放到论文里。
13.对二值因变量常常使用probit回归。

对数据进行预处理(数据可视化)

使用excel对数据进行预处理,将区域转换为表格,便于管理。修改定性和定量数据的背景,进行总览,制成一个简单的表格放入论文中,进行一个总体情况的介绍·。
在excel中复制由公式得到的某一行或某一列时,注意粘贴为数值。
折线图与柱状图的结合使用。

对数据进行描述性统计

可以用·excel,SPSS,stata.
注意Stata中的语法(符号是英文)
导入数据,保存代码在do-file中。分别对定量数据和定性数据进行描述性统计,顺便可以设置虚拟变量。
注意tabulate每次只能对一个定性变量进行描述性统计
得到结果后,粘贴到Excel中美化(三线表)
当定性数据太多,只能放到附录中,每一个数据对应的分类进行频数统计绘制饼状图(excel)更加直观放入论文中。(数据透视表)做柱状图时注意对数据进行排序。使用数据透视表可以进行交互的分析。

利用Stata进行回归分析

  1. 在Stata中用reg进行回归时,默认使用OLS普通最小二乘法进行回归。
  2. Model代表SSR;Residual代表SSE;Total代表总体平方和SST;SS代表;df代表自由度;Coef代表回归系数;Std.Err.代表标准误差(它的作用在于构造t统计量——回归系数除以标准误差)
  3. 首先要进行联合显著性检验(F统计量),检验这K个自变量前的回归系数是否等于零。原假设是全部等于零·。
  4. 用t检验来检验回归系数的显著性,比较P值。(由于量纲的影响单看回归系数的大小没有意义,不能看出显著性)
  5. 置信区间包含原点说明回归系数的显著性不强。
  6. 回归用的是定量数据的变量和虚拟变量。
  7. 注意解读图标和某些数据的意义。(注意虚拟变量回归系数的解读)
  8. 将回归后得到的表格存到word文档中时,美化表格改变字体·,分析回归系数的意义。
  9. 回归模型的拟合优度很低,调整后通常更低,回归分为解释型回归(更多关注整体显著性,拟合优度小没有影响),预测型回归(唯拟合优度大是论)。也可以通过对模型进行调整,如·对数据取对数或者平方后进行回归(不要轻易改变变量,否则难以解释或者有内生性问题)
  10. 使用调整后拟合优度:因为引入的自变量越多,拟合优度越大。我们更倾向于使用调整后的拟合优度,如果新引入的自变量对SSE的减少程度比较小,那么调整后的拟合优度反而会变小。

利用Stata进行标准化回归(剔除量纲的影响)b

1.标准化回归是用来比较各个自变量对因变量的重要程度。
2.对数据进行标准化,就是将原始数据减去他的均数之后,再除以该变量的标准差,计算得到的新的变量的值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化的回归系数。(只关注显著的回归系数,标准化系数的绝对值越大,说明对因变量影响越大)即先用未标准化的回归系数进行显著性检验,在通过标准化的回归系数进行变量的重要性判断。

对模型进行稳健性检验

1.更改研究对象(针对某一问题,没有固定研究对象)。
2.更改计量方法。
3.加入其他的控制变量。

扰动项问题

1.我们通常把扰动项看成是便于我们分析的球型扰动项,它满足“同方差”和“无自相关”的条件。但是横截面数据容易出现异方差的问题,时间序列数据容易出现自相关(ui和uj的协方差不为零)的问题。
2.若扰动项中包含与自变量相关的变量会造成内生性,使模型不准确。

关于异方差

1.异方差:异方差性是相对于同方差而言的。所谓同方差(主对角线元素相同),是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项(扰动项)满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。
简单来说就是对于不同的观测值,扰动项的方差不同
2.存在异方差的后果:OLS 估计出来的回归系数仍然是无偏的,一致的,但是假设检验无法使用,因为假设检验构造的t统计量是回归系数除以标准误,而标准误由于异方差的影响而不准确。OLS 不再是最优线性无偏估计量。例如:当自变量x增大时,数据越来越发散。
3.解决异方差的办法:(1)使用OLS和稳健的标准误差(常用)(2)使用广义最小二乘法(分配不同的权重)。
4.检验异方差:画散点图(看数据波动的程度);BP检验和怀特检验(应用范围更广)(原假设是不存在异方差)。

多重共线性的问题

1.多重共线性是指某一自变量与其他自变量的相关性很大。
2.严格的多重共线性往往不存在,完全多重共线性stata会自动识别并删去。非严格的多重共线性往往更常见,会使得对系数的估计不准确。往往表现在:模型的拟合优度很大,联合性检验也很显著,但是但是单个系数的t检验不显著,或者系数的估计值不合理,甚至符号和预期相反。也可能是增减解释变量对系数的估计值影响很大(类似于内生性)。
多重共线性的主要后果是对单个系数的解释不准确,可能使它不显著。
3.检验多重共线性:方差膨胀因子VIF。
4.多重共线性的处理方法

逐步回归分析(解决多重共线性的问题)

向前逐步回归与向后逐步回归(更好),数模时可以用。
逐步回归时,要提前手动删除完全多重共线性的变量(在做一般回归时,stata自动删除过)。

你可能感兴趣的:(数学建模)