清风数模课---多元回归分析

  1. 使用情况

    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的 数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进 而达到通过X去预测Y的目的。

  2. 回归分析关键

    • 相关性 相关性不等于因果(eg:冰淇淋卖的越多,游泳死亡人数越多)

    • Y :  又称因变量 (在实际应用中,Y常常是我们需要研究的那个核心变量。)

    • X :  又称因变量  (X为解释变量,Y为被解释变量。)
  3. 回归分析的使命

    1. 识别重要变量

    2. 判断相关性的方向

    3. 要估计权重(回归系数)

  4. 回归分类

    类型 模型 Y的特点 例子
    线性回归 OLS、GLS(最小二乘) 连续数值型变量 GDP、产量、收入
    0‐1回归 logistic回归 二值变量(0‐1) 是否违约、是否得病
    定序回归 probit定序回归 定序变量 等级评定(优良差)
    计数回归 泊松回归(泊松分布) 计数变量 每分钟车流量
    生存回归 Cox等比例风险回归 生存变量(截断数据) 企业、产品的寿命
  5. 数据的分类

    上面的数据多半都是宏观数据,微观数据市面上很少 大家可以在人大经济论坛搜索

    1. 横截面数据:在某一时点收集的不同对象的数据。

      建模方法:多元线性回归

      • 我们自己发放问卷得到的数据

      • 全国各省份2018年GDP的数据

      • 大一新生今年体测的得到的数据

    2. 时间序列数据:对同一对象在不同时间连续观察所取得的数据。

      建模方法:移动平均、指数平滑、ARIMA、GARCH、VAR、协积

      • 从出生到现在,你的体重的数据(每年生日称一次)。

      • 中国历年来GDP的数据。

      • 在某地方每隔一小时测得的温度数据。

    3. 面板数据:横截面数据与时间序列数据综合起来的一种数据资源。

      建模方法:固定效应和随机效应、静态面板和动态面板

      • 2008‐2018年,我国各省份GDP的数据。

  6. 线性回归

    • 注: 线性要求为自变量和因变量通过变量替换后转化成线性模型

    1. 引入了新的自变量后,对回归系数的影响非常大,原因:遗漏变量导致的内生性

      1. 设我们的模型为:
        y = \beta_0 + \beta_1x_1+\beta_2x_2+...+\beta_kx_k + \mu \qquad \mu为无法观测且满足一定条件的扰动项 ,如果满足误差项\mu和所有的自变量x均不相关,则称该模型具有外生性

      2. 内生性的蒙特卡罗模拟

        当分析中缺少了一个自变量时,该自变量与因变量的相关系数越大,内生性越大清风数模课---多元回归分析_第1张图片

      3. 由于彻底无内生性要求太高,故一般只需要弱化"控制变量"即可;在实际应用中,我们只要保证核心解释变量与不相关即可。

        1. 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的 一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。

        2. 控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也 放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。

  7. 关于线性方程中取对数的情况

    1. 经验

      • 与市场价值相关的,例如,价格、销售额、工资等

      • 以年度量的变量,如受教育年限、工作经历等通常不取对数;

      • 比例变量,如失业率、参与率等,两者均可;

      • 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);

    2. 优点:

      1. 减弱数据的异方差性

      2. 如果变量本身不符合正态分布,取 了对数后可能渐近服从正态分布

      3. 模型形式的需要,让模型具有经济学意义。

    3. 四类模型回归系数

      1. 一元线性回归: = + + ,x每增加1个单位,y平均变化b个单位;

      2. 双对数模型: = + + ,x每增加1%,y平均变化b%;

      3. 半对数模型: = + + ,x每增加1%,y平均变化b/100个单位;

      4. 半对数模型: = + + ,x每增加1个单位,y平均变化(100b)%。

  8. 自变量中有定性变量,例如性别、地域等,在回归中的处理

    1. 设置一 一对应的值对应该变量<虚拟变量>,进行计算相关系数,在其他自变量一致的情况下,代入不同的最开始设定的值,求得结果相减即可

    2. 多分类清风数模课---多元回归分析_第2张图片

      • 为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。

      • 此时分析数据可用Stata

  9. 标准化回归系数

    1. 为了更为精准的研究影响评价量的重要因素(去除量纲的影响), 我们可考虑使用标准化回归系数。

    2. 对数据进行标准化,就是将原始数据减去它的均数后,再除以该变 量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化 回归方程,回归后相应可得到标准化回归系数。

    3. 标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显 著的回归系数哦)。

    4. Stata标准化回归命令

       regress y x1 x2 … xk,beta  /*regress 评价量*/
  10. 逐步回归分析

    1. 向前逐步回归Forward selection:将自变量逐个引入模型,每引入一个自变量 后都要进行检验,显著时才加入回归模型。 (缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了, 但是,并没有将其及时从回归方程中剔除掉。)

    2. 向后逐步回归Backward elimination:与向前逐步回归相反,先将所有变量均 放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的 变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代, 直到没有自变量符合剔除的条件。(缺点:一开始把全部变量都引入回归方程, 这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少 一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了)

    3. Stata实现逐步回归法

      1. 向前逐步回归Forward selection:

        stepwise regress y x1 x2 … xk, pe(#1)

        pe(#1) specifies the significance level for addition to the model; terms with p<#1 are eligible for addition(显著才加入模型中)

      • 向后逐步回归Backward elimination:

        stepwise regress y x1 x2 … xk, pr(#2) pr(#2)

        specifies the significance level for removal from the model; terms with p>= #2 are eligible for removal(不显著就剔除出模型).

      1. 如果你觉得筛选后的变量仍很多,你可以减小#1或者#2

        如果你觉得筛选后的变量太少了,你可以增加#1或者#2

      2. 注:

        1. 可以在后面再加参数b和r,即标准化回归系数或稳健标准误

        2. x1 x2 … xk之间不能有完全多重共线性(和regress不同哦)

    4. 逐步回归的说明

      1. 向前逐步回归和向后逐步回归的结果可能不同。

      2. 不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问 题,例如内生性问题。

      3. 更好的是每种情况都尝试一次,最终一共有C_K^1+C_K^2+...+C_K^K = 2^K-1种可能。如果自变量很多,那么计算相当费时。
         

你可能感兴趣的:(数学建模,数学建模,美国大学生数学建模竞赛,线性代数,线性回归,回归)