1.8线性回归

回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。

线性(Linear) 的严格定义是一种映射关系,其映射关系满足可加性和其次性。通俗理解就是两个变量之间存在一次方函数关系,在平面坐标系中表现为一条直线。不满足线性即为非线性(non-linear)

线性回归(Linear Regression):在回归分析中,如果自变量和因变量之间存在着线性关系则被称作线性回归。如果只有一个因变量一个自变量,则被称作一元线性回归,如果有一个因变量多个自变量,则被称作多元回归

回归模型的一般形式: y 真 实 值 = f ( x 1 , x 2 , x 3 , … x p ) + ε y_{真实值}=f(x_1,x_2,x_3,…x_p)+ε y=f(x1,x2,x3,xp)+ε

  • x1,x2,x3,…,xp 是自变量
  • y 是因变量
  • f ( x 1 , x 2 , x 3 , … x p ) f(x_1,x_2,x3,…x_p) f(x1,x2,x3,xp) 实际上描述了一个确定性关系。当它为线性函数,即 y = β 0 + β 1 x 1 + β 2 x 2 + … + β p x p + ε , β 0 , β 1 , … , β p y=β_0+β_1x_1+β_2x_2+…+β_px_p+ε,β_0,β_1,…,β_p y=β0+β1x1+β2x2++βpxp+εβ0β1βp被称作回归系数
  • ε 描述了一种随机误差(扰动项),可能是影响因素缺失、观测/测量误差、其他随机误差

线性回归的几个基本的前置假设条件:

  • 零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响
  • 同方差:随机误差项方差相同,在给定x的情况下,ε的条件方差为某个常数σ²
  • 无自相关:两个ε之间不相关,COV(εi,εj)=0,i≠j
  • 正态分布:ε符合正态分布 εi~N(0,σ²)
  • 解释变量x1,x2,…,xp是非随机变量,其观测值是常数
  • 解释变量之间不存在精确的线性关系
  • 样本个数要多于解释变量的个数

建立回归模型的流程

需求分析明确变量

了解相关需求,明确场景,清楚需要解释的指标(因变量),并根据相关业务知识选取与之有关的变量作为解释变量(自变量)
比如,要预测某地房价,按照我们对房价的认识,通常认为该因变量和以下因素(自变量)有关:
面积、位置、房龄、户型、周围环境、便利程度、邻居、学校。。。

数据收集加工

根据上一步分析得到的解释变量,去收集相关的数据(时序数据、截面数据等),对得到的数据进行清洗、加工,并根据数据情况调整解释变量,并判断是否满足基本假设
时序数据:考虑时间因素的数据,比如房价近5年的相关信息
截面数据:不考虑数据因素的数据,比如当前的房价信息
比如,我们共收集到506条有效数据:
面积:无相关信息
位置:离商业中心的距离DIS
房岭:AGE
户型:房间数RM
周围环境:环保指标NOX、是否沿河CHAS
便利程度:距离高速的距离RAD
邻居:教师学生比例PTRATIO、城镇中黑人比例B、低收入阶层ELSTAT
学校:无相关信息
新增:人均犯罪率CRIM、住宅用地比例ZN、商业用地比例INDUS、税率TAX
然后核查数据的情况是否满足基本假设中 和解释变量相关的部分:
解释变量是非随机变量,其观测值是常数
解释变量之间不存在精确的线性关系
样本个数要多于解释变量的个数
随机误差:零均值、同方差、不相关、正态N(0,σ²)

确定回归模型

了解数据集,使用绘图工具绘制变量样本散点图或使用其他分析工具分析变量间的关系,根据结果选择回归模型。如:线性回归模型,指数形式的回归模型等

在一些特定的领域,已经有一些成熟的模型,可以直接拿过来套用。比如 C-D(柯布-道格拉斯)生产函数,可直使用它预测工业总产值

模型参数估计

模型确定后,基于收集、整理的样本数据,估计模型中的相关参数。最常用的方法是最小二乘法,在不满足基本假设的情况下还会采取岭回归、主成分回归、偏最小二乘法等

最小二乘法(Least Square Method):也叫最小平方法,通过最小化误差的平方和寻数据的最佳函数匹配的方法。

模型检验优化

参数确定后,得到模型。此时需要对模型进行统计意义上的检验,包括对回归方程的显著性检验、回归系数的显著性检验、拟合优度检验、异方差检验、多重共线性检验等。还需要结合实际场景,判断该模型是否具有实际意义。

显著性检验(Significance Test):首先对整体参数或分布做出一个假设,然后利用样本信息来判断这个假设是否合理,即利用已有样本信息判断总体的真实情况与之前针对整体的假设是否具有显著差异。换言之,我们对总体做了一个假设,现在得到了总体中的一些样本,这些样本和我们假设的差异是否可以认为是机会变异造成的,还是由于我们假设不正确导致这些差异的。常见的检验有t检验、F检验等。

模型部署应用

模型检验通过后,可以使用模型进行相关的分析、应用,包括因素分析、控制、预测等。

  • 变量关系:确定几个特定变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式
  • 因素分折:回归模型对解释变量和被解释变量之间的关系进行了度量,从各个解释变量的系数可以发现各因素对最终结果的影响大小
  • 控制:给定被解释变量的值,根据模型来控制解释变量的值
  • 预测:根据回归模型,可以基于已知的一个或多个变量预测另一个变量的取值,并可以了解这个取值精确到什么程度
  • ……

回归模型的特点

回归模型在很多领域都有广泛的应用,具有以下优点:

  • 模型简单,建模和应用都比较容易
  • 有坚实的统计理论支撑
  • 定量分析各变量才间的关系
  • 模型预测结果可以通过误差分析精确了解

存在一些缺点:

  • 假设条件比较多且相对严格
  • 变量选择对模型影响较大

你可能感兴趣的:(人工智能学习笔记)