统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)

线性回归的作用: 当我们获得数据之后, 我们想要知道这些数据间元素的关系, 我们可以定义一个等式去描述这中关系. 这就是线性回归的作用. 


dependent variable: 就是要被预测的变量

Independent variable: 就是用来预测的变量


以下这个公式就是一个简单的线性回归的模型. 

beta 0 和 1 都是模型的变量

epsilon 是随机变量, 作为error term.  ( 个人理解: 因为现实生活中数据的预测结果可能被一些噪音所改变, 比如一个商店的销售额, 可能因为某天的某个客人很有钱而改变, 但是这种很有钱的客户很少见, 这种情况下的预测结果会有偏差, 使用epsilon 来进行校正. )



可能的线性回归图例:

统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)_第1张图片

线性回归的基本步骤:

统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)_第2张图片

我们通过 regression model 的到 regression equation, 然后使用 历史数据 对regression equation 的参数进行优化 得到 estimated regression equation. 获得最优参数, 进行预测新的independent 数据



例子:

背景. 一连锁饭店的 销售额 和 坐落在它周围的 大学的 学生数量 可能有关系 所以我们对 销售额 和 学生数量 之间的关系很感兴趣. 


我们收集了一部分历史数据. 如下

统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)_第3张图片


将数据转换为散点图:

统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)_第4张图片


  1. 我们现在的问题 就能转化成 找到一条直线, 这条直线需要满足 使历史数据中的各个 x 所对应的 y各个在直线上对应的y-head差最小
  2. 公式 : yi 是 历史数据x对应的y y-head 是 x 对应的在直线上y的值.
  3. 根据estimation regression equation 我们知道
  4. 将 3 带入 2, 在对 b0 和 b1 分别求 偏导. 如图 (下图为错误版本,b1推导错误,感谢  qq_31442743 同学的指正, 正确版本 见 第 5 步)
  5. 统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)_第5张图片 
  6. 第二遍修改居然还修改错了,感谢同学再次指正。果然上完一天班脑子就是乱的。



发现问题欢迎指出.谢谢



你可能感兴趣的:(数学相关)