美赛快速复习之回归

回归复习

0、目标

复习并总结好几大回归模型,并找到模型描述

1、常见的7种回归

逐步回归、一元线性回归、多元线性回归、非线性回归、高斯回归分析、自回归、岭回归、lasso回归、逻辑回归、生存回归、弹性回归

线性回归(Linear Regression)

  • 逻辑回归(Logistic Regression)
  • 多项式回归(Polynomial Regression)
  • 逐步回归(Stepwise Regression)
  • 岭回归(Ridge Regression)
  • 套索回归(Lasso Regression)
  • 弹性回归(ElasticNet Regression)

下面是19种回归:
美赛快速复习之回归_第1张图片
美赛快速复习之回归_第2张图片

关键词:Y

Y:是因变量。

(1)经济学家研究经济增长的决定因素,那么Y可以取GDP增长率(连续数值型变量)

(2)P2P公司要研究借款人能否按时还款,那么Y可以设计成一个二至变量:即0为可以,1为不可以(0-1变量)

(3)消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示有点喜欢,…)(定序变量)

(4)管理学中的RFM模型:F表示一定时间内,客户倒到访的次数(离散不连续),(技术变量)

(5)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)

回归要完成的使命:

  • 识别重要变量:识别并判判断哪些变量是同Y真的相关,哪些不是,即:“变量选择”(在机器学习中又可以理解为特征筛选)
  • 判断相关性的方向:这些选择的X变量和Y是真相关还是负相关。
  • 要估计权重(回归系数):赋予不同的X不同的权重,也就是不同的回归系数,进而知道不同变量之间的相对重要性

回归分析的分类

美赛快速复习之回归_第3张图片

数据分类

  • 横截面数据:在某一时点收集的不同对象的数据(例如自己发放的问卷的数据,2018年GDP数据)
  • 时间序列数据:在同一对象在不同时间连续观察所得的数据(某男孩不同年龄身高等)
  • 面板数据(较少用)(横截面和时间序列的结合)(例如:2010~2018的GDP数据)

a、回归系数的解释

y i = β 0 + β 1 x i + μ i y_i=\beta_0+\beta_1x_i+\mu_i yi=β0+β1xi+μi,其中 β 0 和 β 1 \beta_0和\beta_1 β0β1为回归系数。

假设x为某产品品质评分(0-10之间),y为该产品的销量,我们对x和y使用一元线性回归模型,得到 y i = 3.4 + 2.3 x i y_i^=3.4+2.3x_i yi=3.4+2.3xi
美赛快速复习之回归_第4张图片
原因:遗漏变量导致的内生性

分析内生性:

美赛快速复习之回归_第5张图片

无内生性的假定要求太高(通常需要所有解释变量均与扰动项 μ i \mu_i μi不想关,因为解释变量很多,难以保证),因此(/弱化条件)。只需要保证->

  • 核心解释变量(我们最感兴趣的变量)与 μ \mu μ不相关即可。
  • 控制变量:对这些变量不感兴趣,而之所以将他们也放入回归方程,主要是为了”控制住“那些被解释变量有影响的遗漏因素。

b、什么时候取对数

美赛快速复习之回归_第6张图片

四类模型回归系数的解释:
美赛快速复习之回归_第7张图片
美赛快速复习之回归_第8张图片

c、针对特殊的自变量:虚拟变量X

如果自变量中有定性变量,如:性别,地域等,在回归中的处理为:

一般使用Stata来处理虚拟变量

  • 单分类虚拟变量设置:例如在题目中只有单个分类指标(例如是性别),那么可以列出以下的式子
    美赛快速复习之回归_第9张图片

美赛快速复习之回归_第10张图片

  • 多分类虚拟变量设置
    美赛快速复习之回归_第11张图片

d、含有交互项

不怎么使用,在此不做解释

e、扰动项

f、异方差

3、逐步回归分析

你可能感兴趣的:(数学建模,数学建模)