机器学习3-岭回归,Lasso,变量选择技术

文章目录

  • 一. 岭回归
    • 1.1 什么是岭回归
    • 1.2 岭迹图
    • 1.3 岭回归估计的性质
    • 1.4 岭迹分析
    • 1.5 岭参数的一般选择原则
    • 1.6 方差扩大因子法
    • 1.7 用R语言进行岭回归
  • 二. Lasso
    • 1.1 Lasso概述
    • 1.2 为什么LASSO能直接筛选变量
    • 1.3 LASSO vs岭回归
    • 1.4 更一般化的模型
    • 1.5 弹性网
  • 参考:

一. 岭回归

1.1 什么是岭回归

岭回归是专门用于共线性数据分析的有偏估计的回归方法,实际上是一种改良的最小二乘法,但它放弃了最小二乘的无偏性,损失部分信息,放弃部分精确度为代价来寻求效果稍差但更符合实际的回归方程。

此处介绍下岭回归的回归系数公式,B(k)=(X’X+kI)-1X’Y作为回归系数的估计值,此值比最小二乘估计稳定。称B(k)为回归系数的岭估计。显然,当k=0时,则B(k)就成为了最小二乘估计;而当k→∞时,B(k)就趋于0。因此,k值不宜太大,我们要让k值小些。

机器学习3-岭回归,Lasso,变量选择技术_第1张图片

1.2 岭迹图

当不存在奇异性时,岭迹应是稳定地逐渐趋向于0
通过岭迹图观察岭估计的情况,可以判断出应该剔除哪些变量
机器学习3-岭回归,Lasso,变量选择技术_第2张图片

1.3 岭回归估计的性质

机器学习3-岭回归,Lasso,变量选择技术_第3张图片

机器学习3-岭回归,Lasso,变量选择技术_第4张图片

机器学习3-岭回归,Lasso,变量选择技术_第5张图片

机器学习3-岭回归,Lasso,变量选择技术_第6张图片

1.4 岭迹分析

机器学习3-岭回归,Lasso,变量选择技术_第7张图片

1.5 岭参数的一般选择原则

选择k(或lambda)值,使到
(1)各回归系数的岭估计基本稳定;
(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;
(3)回归系数没有不合乎实际意义的绝对值;
(4)残差平方和增大不太多。
机器学习3-岭回归,Lasso,变量选择技术_第8张图片

1.6 方差扩大因子法

机器学习3-岭回归,Lasso,变量选择技术_第9张图片

1.7 用R语言进行岭回归

代码:

library(MASS)
longley
summary(fm1 <- lm(Employed ~ ., data = longley))

names(longley)[1] <- "y"
lm.ridge(y ~ ., longley)
plot(lm.ridge(y ~ ., longley, lambda = seq(0,0.1,0.001)))

select(lm.ridge(y ~ ., longley, lambda = seq(0,0.1,0.001)))

机器学习3-岭回归,Lasso,变量选择技术_第10张图片

二. Lasso

1.1 Lasso概述

岭回归存在的问题:

  1. 岭参数计算方法太多,差异太大
  2. 根据岭迹图进行变量筛选,随意性太大
  3. 岭回归返回癿模型(如果没有经过变量筛选)包含所有癿变量

LASSO

  1. Tibshirani(1996)提出了Lasso(The Least Absolute Shrinkage and Selectionatoroperator)算法

  2. 通过构造一个一阶惩罚函数获得一个精炼癿模型;通过最终确定一些指标(变量)癿系数为零(岭回归估计系数等于0癿机会微乎其微,造成筛选变量困难),解释力很强

  3. 擅长处理具有多重共线性癿数据,不岭回归一样是有偏估计

1.2 为什么LASSO能直接筛选变量

机器学习3-岭回归,Lasso,变量选择技术_第11张图片

1.3 LASSO vs岭回归

机器学习3-岭回归,Lasso,变量选择技术_第12张图片
机器学习3-岭回归,Lasso,变量选择技术_第13张图片

1.4 更一般化的模型

image.png

机器学习3-岭回归,Lasso,变量选择技术_第14张图片

1.5 弹性网

Zouand Hastie (2005)提出elasticnet
在这里插入图片描述

机器学习3-岭回归,Lasso,变量选择技术_第15张图片

参考:

  1. http://www.dataguru.cn/article-4063-1.html
  2. https://zhuanlan.zhihu.com/p/426162272

你可能感兴趣的:(数据分析,+,机器学习,回归,机器学习,r语言)