第一、识别重要变量
判断哪些X变量是同Y真的相关,哪些不是。
第二、判断相关性的方向
判断这些有用的X变量同Y的相关关系是正还是负。
第三、要估计权重(回归系数)
赋予不同X不同的权重,也就是不同的相关系数,进而知道不同变量之间的相对重要性。
类型 | 模型 | Y的特点 | 例子 |
---|---|---|---|
线性回归 | OLS、GLS(最小二乘) | 连续数值型变量 | GDP、产量、收入 |
0‐1回归 | logistic回归 | 二值变量(0‐1) | 是否违约、是否得病 |
定序回归 | probit定序回归 | 定序变量 | 等级评定(优良差) |
计数回归 | 泊松回归(泊松分布) | 计数变量 | 每分钟车流量 |
生存回归 | Cox等比例风险回归 | 生存变量(截断数据) | 企业、产品的寿命 |
横截面数据:在某一时点收集的不同对象的数据
常用建模方法:多元线性回归
时间序列数据:对同一对象在不同时间连续观察所取得的数据。
常用建模方法:移动平均、指数平滑、ARIMA、GARCH、VAR、协积
面板数据:横截面数据与时间序列数据综合起来的一种数据资源。
常用建模方法: 固定效应和随机效应、静态面板和动态面板
一元线性回归: = + + ,x每增加1个单位,y平均变化b个单位;
双对数模型: = + + ,x每增加1%,y平均变化b%;
半对数模型: = a + blnx + ,x每增加1%,y平均变化b/100个单位;
半对数模型: = a + bx + ,x每增加1个单位,y平均变化(100b)%。
现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。
以评价量为因变量,分析其它变量和评价量之间的关系;
以评价量为因变量,研究影响评价量的重要因素。
summarize 变量1 变量2 ... 变量n
sum 变量1 变量2 ... 变量n //简写形式
tabulate 变量名, gen(A)
tab 变量名, gen(A) //简写
// 返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)。
数据的描述性统计-Excel(方法二)
数据 — 数据分析 — 描述统计
一般只用到(平均数、标准差、最小值、最大值、样本量)
数据透视表 - Excel
全选 — 插入 — 数据透视表
指标的总体情况介绍
分定量指标、定性指标,用文字对每个指标进行介绍(形成表格)
regress y x1 x2 … xk //(默认使用的OLS:普通最小二乘估计法)
reg y x1 x2 … xk //简写
reg 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4 //例子,字母代表虚拟变量回归
// 下面的语句可帮助我们把回归结果保存在Word文档中
est store m1
reg2docx m1 using m1.docx, replace
// *** p<0.01 ** p<0.05 * p<0.1
P值小于0.05,代表在95%置信水平下,该回归系数显著的异于0
Prob > F 为 联合显著性检验 1 = 2 = ··· = k = 0
Tips:
标准化回归系数:研究影响评价量的重要因素(去除量纲的影响)
用法:标准化系数(Stata中的Beta值)的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数哦)。
regress y x1 x2 … xk,beta
reg y x1 x2 … xk,b // 简写
在之前的回归分析中,我们都默认了扰动项是球型扰动项(满足“同方差”和“无自相关”两个条件)。
而横截面数据容易出现 异方差 的问题;时间序列数据容易出现自相关的问题。
如果扰动项存在异方差:
OLS估计出来的回归系数是无偏、一致的。
假设检验无法使用(构造的统计量失效了)。
OLS估计量不再是最优线性无偏估计量(BLUE)。
简言之,估计结果会不准确。
// Stata命令(在回归结束后使用):
estat hettest, rhs iid
BP检验原假设:扰动项不存在异方差
P值小于0.05,说明在95%的置信水平下拒绝原假设,即我们认为扰动项存在异方差。
// Stata命令(在回归结束后使用):
estat imtest, white
怀特检验原假设:不存在异方差
regress y x1 x2 … xk, robust
reg y x1 x2 … xk, r // 简写
Stock and Watson (2011)推荐,在大多数情况下应该使用“OLS + 稳健标准误”。
存在多重共线性就是 这个变量和其他的变量非常的相关。
VIM(m)越大,说明第m个变量和其他变量的相关性越大。
经验规则:如果VIM > 10,则认为该回归方程存在严重的多重共线性。
// Stata计算各自变量VIF的命令(在回归结束后使用):
estat vif
如果发现存在多重共线性,可以采取以下处理方法。
(1)如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则通常可以 不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效应仍可以较准确地估计。
(2)如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
(3) 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除哦,因为可能会有内生性的影响),或对模型设定进行修改。
可以用来解决多重共线性的问题
stepwise regress y x1 x2 … xk, pe(#1)
// 显著才加入模型中 #1一般取0.05
stepwise regress y x1 x2 … xk, pr(#2)
// 不显著就剔除出模型 #2一般取0.05
如果你觉得筛选后的变量仍很多,你可以减小#1或者#2
如果你觉得筛选后的变量太少了,你可以增加#1或者#2
注:
x1 x2 … xk之间不能有完全多重共线性(和regress不同哦) ,需要手动在每个分类变量中任意去除一个元素
可以在后面再加参数b和r,即标准化回归系数或稳健标准误
向前逐步回归和向后逐步回归的结果可能不同。
型,之后尝试将其中一个自变量从模型中剔除