回归分析——基本内容

回归分析

变量之间X,Y之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)

回归:回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述

回归的分类

线性与非线性

线性的严格定义是一种映射关系,其映射关系满足可加性和其次性。通俗理解就是两个变量(因变量和自变量)之间存在一次方函数关系,在平面坐标系中表现为一条直线。

不满足线性即为非线性。

线性回归

线性回归:在回归分析中,如果自变量和因变量之间存在着线性关系,则被称作线性回归。

如果只有一个因变量一个自变量,则被称作一元线性回归,如果一个因变量多个自变量,则被称为多元回归

回归模型

回归模型的一般形式:y = f(x1,x2,x3,...,xp) + E

f(x1,x2,x3,...,xp)确定性关系

E随机误差(扰乱项):1.影响因素缺失,2.观测/测量误差,3.其他随机误差

建立回归模型的流程

  1. 需求分析明确变量

    了解实际需求,明确场景,清楚需要解释的指标(因变量),并根据相关业务知识选取与之相关的变量作为解释变量(自变量)。

  2. 数据加工处理

    根据上一步分析得到的解释变量,去收集相关的数据(时序数据、截面数据等),对得到的数据进行清洗、加工,并根据数据情况调整解释变量,并判断是否满足基本假设

    核查数据情况是否满足基本假设中和解释变量相关的部分:

    • 解释变量是非随机变量,其观测值是常数
    • 解释变量之间不存在精确的线性关系
    • 样本个数要多于解释变量的个数
    • 随机误差:零均值、同方差、不相关、正态
  3. 确定回归模型

    了解数据集,使用绘图工具绘制变量样本散点图或使用其他分析工具分析变量间的关系,根据结果选择回归模型,如:线性回归模型,指数形式的回归模型等。

  4. 模型参数估计

    模型确定后,基于收集、整理的样本数据,估计模型中的相关参数。最常用的方法是最小二乘法,在不满足基本假设的情况下还会采取岭回归、主成分回归、偏最小二乘法等。

    • 最小二乘法:也叫最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配的方法。
  5. 模型检验优化

    参数确定后,得到模型。此时需要对模型进行统计意义上的检验,包括对回归方程的显著性检验、回归系数的显著检验、拟合优化检验、异方差检验、剁成共线性检验等。还需要结合实际场景,判断该模型是否具有实际意义。

  6. 模型部署应用

    模型检验通过后,可以使用模型进行相关的分析、应用,包括因素分析、控制、预测等。

回归模型的特点

回归模型在很多领域都有广泛的应用,具有以下优点:

  • 模型简单,建模和应用都比较容易
  • 有坚实的统计理论支撑
  • 定量分析个变量之间的关系
  • 模型预测结果可以通过误差分析精确了解

存在一些缺点:

  • 假设条件比较多且相对严格(前提假设条件过多,使用之前需要进行验证,验证是否满足条件)
  • 变量选择对模型影响较大(对结果产生影响的因素很多,如何选择合适的因素作为自变量)

总结

  1. 了解线性回归的特点及使用场景
  2. 了解线性回归的建模方法
    • 六个步骤,步骤是否符和基本假设
  3. 了解线性回归的优点和缺点

一元线性回归

纲要

  1. 一元线性回归的参数估计
  2. 一元线性回归的显著性校验
  3. 一元线性回归的残差分析
  4. 一元线性回归模型的应用

目标

  1. 使用MLE(最大似然 估计),OLS(普通最小二乘法)进行参数估计
  2. 能使用假设检验对回归模型进行检验
  3. 理解并能进行回归模型的残差分析
  4. 使用线性回归模型进行预测和控制

一元线性回归模型

在研究某一现象时,主要关心与影响该现象最主要因素关系时,两者有密切关系,但并非一个变量唯一确定另一个变量,可以使用一元线性回归模型。

一元线性回归方程y = β0 +β1x

回归方程从平均意义上表达了变量y与x的统计规律性。

回归分析的主要任务就是通过n组样本的观察值,对β0、β1 进行估计,得到最终方程。

参数估计:最小二乘估计

根据观察数据,寻找参数β0、β1的估计值β0、β1,使观察值和回归预测值的离差平方和达到极小,估计值β0、β1称作回归参数β0、β1的最小二乘估计。

已知两组数据x,y,使用一元线性回归模型拟合二者之间得关系:y = β0 + β1x。采用最小二乘估计回归方程中的系数β0、β1,得到最终的回归方程。

参数估计:最大似然估计

利用总体的分布密度或概率分布的表达式及其样本所提供的信息求未知参数估计量的一种方法。

最大似然估计基本思路:已知样本符合某种分布,但分布的具体参数未知,通过实验,估算分布的参数。估算的思想为:已知某组参数能使当前样本出现的概率最大,就认为u该参数为最终的估计值

最大似然估计解决的是”模型已定,参数未知“的问题。即用一直样本的结果,去反推既定模型中的参数最可能的取值。

参数估计:有偏估计与无偏估计

无偏估计:用样本统计量来估计总体参数时的一种无偏估计,估计量的数学期望等于估计量的真实值。换言之,在对某量进行估计时,针对不同的样本,估计结果对真实值来说有的偏大有的偏小,反复多次,”平均“来说,和真实值得偏差为0。反之,即为有偏估计。

无偏估计无系统性偏差,有偏估计有系统性偏差。

回归模型的显著性检验

回归系数是否显著:t检验

因变量y与自变量x之间是否存在线性关系,即β1是否等于0,使用t检验进行 判断。

**确定假设:**我们搜集数据是为了找到不达标的证据,即原假设H0:β1 = 0,备选假设 H1:β1 ≠0

确定检验水平:采取常用的α=0.05

构造统计量

比较p值和α值

得到结论:p值若大于α值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设成立。需要重新建模。

你可能感兴趣的:(机器学习,机器学习,人工智能)