ridge regression岭回归

岭回归用于处理下面两类问题:

1.数据点少于变量个数

2.变量间存在共线性


岭回归的原理

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。

岭回归的原理较为复杂。根据高斯马尔科夫定力,多重相关性并不影响最小二乘法估计量的无偏性和最小方差性,但是,虽然最小二乘估计量在所有线性估计量中是方差最小的,但是这个方差都不一定小,而实际上可以找到一个有偏估计量,这个估计量虽然有较小的偏差,但它的精度却能够大大高于无偏的估计量。岭回归分析就是根据这个原理,通过在正规方程中引入有偏常熟二求的回归估计量的。

缺点:通常岭回归方程的R平方值会稍低于普通回归分析,但回归系数的显著性往往明显高于普通回归,在存在共线性问题和病态数据偏多的研究中有较大的实用价值。


ridge regression岭回归_第1张图片

k 选值时要在红线内,要平稳,k要去喇叭口部分的值,不能取后面太趋于稳定的值,太稳定代表残差平方和太大

因为岭回归的岭参数k的取值太主观,HGB估计方法和L-W估计方法等得出的k值可能相差几十倍之多,LASSO就是岭回归的取代,LASSO也是有偏估值的

k值在R语言中用lambda表示

岭回归是有偏估值的,意思是说它的到的残差平方和会比实际的残差平方和大一点点,因为人为多加了一个岭参数k

岭回归的缺陷:

1.岭参数k计算方法太多,差异太大

2.在岭迹图k取值,很依赖分析师的经验,只要是在喇叭口周围都可以

3.岭迹图做变量筛选,随意性很大,筛选不掉变量,而我们本意是想只筛选出三五个变量做回归



你可能感兴趣的:(机器学习)