学习笔记——线性回归预测模型及其拓展(一)【从零开始学python数据分析与挖掘】

线性回归预测模型及其拓展(一)

  • 线性回归预测模型相关概念
    • 1.理论概念
      • 1.1. 一元回归模型
      • 1.2. 拟合线的求解
      • 1.3. 多元回归模型
      • 1.4.模型的假设检验
      • 1.5.回归模型的诊断
    • 2数学概念
      • 缺点

线性回归预测模型相关概念

站在数据挖掘的角度看待线性回归模型,它属于一种有监督的学习算法,即在建模过程中必须同时具备自变量x和因变量y。

1.理论概念

1.1. 一元回归模型

其中,x i 表示自变量x的第i个值,y i 表示因变量y的第i个值,n表示数据集的样本量。 当模型构建好之 后,就可以根据其他自变量x的值,预测因变量y的值,该模型的数学公式 可以表示成:y=a+bx+ε
如上公式所示,该模型特别像初中所学的一次函数。其中,a为模型的截距项,b为模型的斜率项,ε为模 型的误差项。模型中的a和b统称为回归系数,误差项ε的存在主要是为了平衡 等号两边的值,通常被称为模型无法解释的部分。

1.2. 拟合线的求解

要想得到理想的拟合线,就必须使误差项ε达到最小。由于误差项是y 与a+bx的差,结果可能为正值或负值,因此误差项ε达到最小的问题需转换为误差平方和最小的问题(最小二乘法的思路)。如需使得目标函数J(a,b)达到最小,可以使用偏导数的方法求解出参数a和b
学习笔记——线性回归预测模型及其拓展(一)【从零开始学python数据分析与挖掘】_第1张图片

1.3. 多元回归模型

实际情况中,影响因变量的自变量往往不止一个,从而需要将一元线性回归模型扩展到多元线性回归模型。如果构建多元线性回归模型的数据集包含n个观测、p+1个变量(其中p个自变量和1个因变量),则这些数据可以写成下方的矩阵形式:
学习笔记——线性回归预测模型及其拓展(一)【从零开始学python数据分析与挖掘】_第2张图片
其中,x ij 代表第个i行的第j个变量值。如果按照一元线性回归模型的逻辑,那么多元线性回归模型应该就是因变量y与自变量X的线性组合,即可以将多元线性回归模型表示成:
y=β 0 +β 1 x 1 +β 2 x 2 +…+β p x n +ε
根据线性代数的知识,可以将上式表示成y=Xβ+ε。其中,β为p×1的一维向量,代表了多元线性回归模型的偏回归系数;ε为n×1的一维向量,代表了模型拟合后每一个样本的误差项。

1.4.模型的假设检验

模型的显著性检验是指构成因变量的线性组合是否有效,即整个模型中是否至少存在一个自变量能够真正影响到因变量的波动。该检验是用来衡量模型的整体效应。(回归系数的显著性检验是为了说明单个自变量在模型中是否有效,即自变量对因变量是否具有重要意义。)这种检验则是出于对单个变量的肯定与否。模型的显著性检验和回归系数的显著性检验分别使用统计学中的、F检验法和t检验法

1.5.回归模型的诊断

当回归模型构建好之后,并不意味着建模过程的结束,还需要进一步对模型进行诊断,目的就是使诊断后的模型更加健壮。

  • 误差项ε服从正态分布——正态性检验
  • 无多重共线性检验
  • 线性相关性检验
  • 误差项ε的独立性检验
  • 方差齐性检验
  • 异常值检验

2数学概念

    • 最小二乘法
    • 求偏导
    • 模型的显著性检验——F检验
    • 回归系数的显著性检验——t检验
    • 正态分布的如何构建极其意义
    • 多重共线性
    • 残差项满足方差异性和独立性

缺点

在实际应用中,如果因变量为数值型变量,可以考虑使用线性回归模型,但是前提得满足几点假设,如因变量服从正态分布、自变量间不存在多重共线性、自变量与因变量之间存在线性关系、用于建模的数据集不存在异常点、残差项满足方差异性和独立性。

你可能感兴趣的:(学习笔记——线性回归预测模型及其拓展(一)【从零开始学python数据分析与挖掘】)