数学建模更新4(岭回归和lasso回归)

岭回归和lasso回归

  • 一.概述
  • 二.多元线性回归模型的推导
    • 1.四个假设
      • 【1】线性假设
      • 【2】严格外生性
      • 【3】无完全多重共线性
      • 【4】球形干扰项
    • 2.推导过程
      • 【1】简化矩阵
      • 【2】最小二乘法代数表示
  • 三.岭回归
    • 1.原理
    • 2.如何选择lambda
      • 【1】岭迹分析
      • 【2】VIF法
      • 【3】最小化均方预测误差
  • 四.LASSO回归
    • 1.原理
    • 2.具体概述
  • 四.岭回归和lasso回归的应用
    • 1.例题题目
    • 2.分析
  • 五.何时使用lasso回归?

一.概述

  1. 多元线性回归模型使用OLS,存在异方差和多重共线性对模型的影响,变量过多会导致多重共线性问题造成的回归系数的不显著,甚至造成OLS估计的失效。
  2. 岭回归和lasso回归在OLS回归模型的损失函数上加上了不同的惩罚项,该惩罚项由回归系数的函数构成,一方面,加入的惩罚项能够识别出模型中不重要的变量,对模型起到简化作用,可以看作逐步回归法的升级版;另一方面,加入的惩罚项能够让模型变得可估计,即使之前的数据不满足列满秩,在稍后的原理推导中我们将更加详细的说明这一点。

二.多元线性回归模型的推导

1.四个假设

【1】线性假设

假设自变量和因变量之间存在线性关系

【2】严格外生性

数学建模更新4(岭回归和lasso回归)_第1张图片

【3】无完全多重共线性

【4】球形干扰项

2.推导过程

【1】简化矩阵

【2】最小二乘法代数表示

三.岭回归

1.原理

岭回归 (Ridge regression: Hoerl and Kennard, 1970) 的原理
和 OLS 估计类似,但是对系数的大小设置了惩罚项。

2.如何选择lambda

【1】岭迹分析

数学建模更新4(岭回归和lasso回归)_第2张图片
数学建模更新4(岭回归和lasso回归)_第3张图片

【2】VIF法

如果在第七讲 V I F > 10 VIF>10 VIF>10,存在多重共线性
我们可以不断增加lemdba,直到所有 V I F < 10 VIF<10 VIF<10

【3】最小化均方预测误差

数学建模更新4(岭回归和lasso回归)_第4张图片
注意:首先需要确保x的量纲一致,公式为
在这里插入图片描述

四.LASSO回归

1.原理

数学建模更新4(岭回归和lasso回归)_第5张图片

2.具体概述

数学建模更新4(岭回归和lasso回归)_第6张图片

四.岭回归和lasso回归的应用

在 Stata 中,我们可以安装 lassopack 命令来实现 Lasso 回归,
Lassopack 包含三个与 Lasso 相关的子命令(输入 help
lassopack 可以查看详情): ‐ 子命令 lasso2 可进行 Lasso 估 计; ‐ 子命令 cvlasso 可进行 K 折交叉验证(k‐fold cross
validation); ‐ 子命令 rlasso 可以估计惩罚项由数据决定或
者高维情形(变量维度超过样本数)。

1.例题题目

数学建模更新4(岭回归和lasso回归)_第7张图片
注:Matlab中zscore函数可以对数据进行标准化处理。

cvlasso 单产 种子费 化肥费 农药费 机械费 灌溉费, lopt seed(520)

其中,选择项 “lopt” 表示选择使 MSPE 最小的 λ,选择项 “seed(520)” 表示
将随机数种子设为 520(可自行设定),以便结果具有可重复性;默认 K=10
(即 10 折交叉验证)。

2.分析

数学建模更新4(岭回归和lasso回归)_第8张图片
数学建模更新4(岭回归和lasso回归)_第9张图片

上表右边第 1 列即为 Lasso 所估计的变量系数。其中,除常数项外,只有 3 个变量的系数为非零,而其余变量(未出现在表中)的系数则为
0。考虑到作为收缩估计量的 Lasso 存在偏差(bias),上表右边第 2 列汇报了 “Post Lasso” 估计量的结果,即仅使用
Lasso 进行变量筛选,然后扔掉 Lasso 的回归系数,再对筛选出来的变量进行 OLS 回归。

注意:以上结果可能随着我们之前设置的随机数种子变化,因为lasso回归的估计是近似算法,且剔除的多重共线性变量是相对的。

五.何时使用lasso回归?

数学建模更新4(岭回归和lasso回归)_第10张图片

你可能感兴趣的:(数学建模,逻辑回归,matlab,大数据)