ESL3.6 几种线性回归方法比较学习笔记(含协方差&相关系数概念)

3.6 讨论:选择和收缩方法的比较

这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2018-08-21
解读 Hytn Chen
更新 2020-02-21

翻译原文

一些简单的设定会帮助我们更好地理解上面描述的不同方法之间的关系.考虑相关系数为 ρ \rho ρ 的两个相关输入变量 X 1 , X 2 \mathbf X_1,\mathbf X_2 X1,X2.我们假设实际的回归系数为 β 1 = 4 , β 2 = 2 \beta_1=4,\beta_2=2 β1=4,β2=2

ESL3.6 几种线性回归方法比较学习笔记(含协方差&相关系数概念)_第1张图片

图 3.18:关于一个简单问题不同方法的系数曲线,这个问题有两个相关性为 ± 0.5 \pm 0.5 ±0.5 的输入变量,真实的回归系数为 β = ( 4 , 2 ) \beta=(4,2) β=(4,2)

!!! info “weiya 注:”
已经重现了本节的模拟实验,详见模拟:Fig. 3.18

图 3.18 显示了不同方法下当它们惩罚参数改变时的系数曲线.上图 ρ = 0.5 \rho=0.5 ρ=0.5,下图 ρ = − 0.5 \rho=-0.5 ρ=0.5.岭回归和 lasso 的惩罚参数在一个连续的区域内变化,而最优子集,PLS 和 PCR 只要两个离散的步骤便达到了最小二乘解.在上面的图中,从零点开始,岭回归整体收缩参数直到最后收缩到最小二乘.尽管 PLS 和 PCR 是离散的且更加极端,但它们显示了类似岭回归的行为.最优子集超出解然后回溯.lasso 的行为是其他方法的过渡.当相关系数为负数时(下图),PLS 和 PCR 再一次大致地跟随岭回归的路径,而所有的方法都更加相似.

比较不同方法的收缩行为是很有趣的.岭回归对所有方向都有收缩但在低方差方向收缩程度更厉害.主成分回归 M M M 个高方差的方向单独取出来,然后丢掉剩下的.有趣的是,可以证明偏最小二乘也趋向于收缩低方差的方向,但是实际上会使得某些高方差方向膨胀.这使得 PLS 稍微不太稳定,因此相比于岭回归会有较大的预测误差.整个研究由 Frank and Friedman (1993)1 给出.他们总结到对于最小化预测误差,岭回归一般比变量子集选择、主成分回归和偏最小二乘更好.然而,相对于后两种方法的提高只是很小的.

总结一下,PLS,PCR 以及岭回归趋向于表现一致.岭回归可能会更好,因为它收缩得很光滑,不像离散步骤中一样.Lasso 介于岭回归和最优子集回归中间,并且有两者的部分性质.

个人解读

这里的相关系数应该指的是皮尔逊相关系数。皮尔逊相关系数是两变量间线性相关关系的统计指标,用来表征两个变量之间线性关系紧密程度。其表达式如下
r ( X , Y ) = Cov ⁡ ( X , Y ) Var ⁡ [ X ] Var ⁡ [ Y ] r(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X] \operatorname{Var}[Y]}} r(X,Y)=Var[X]Var[Y] Cov(X,Y)
这里 ρ x y = r ( x , y ) \rho_{x y}=r(x, y) ρxy=r(x,y),该变量具有两个性质

∣ ρ X Y ∣ ≤ 1 \left|\rho_{X Y}\right| \leq 1 ρXY1

∣ ρ X Y ∣ = 1 \left|\rho_{X Y}\right| = 1 ρXY=1的充要条件为,存在常数a和b,使得 P { Y = a + b X } = 1 P\{Y=a+b X\}=1 P{Y=a+bX}=1

∣ ρ X Y ∣ \left|\rho_{X Y}\right| ρXY越大,则相关程度越大, ∣ ρ X Y ∣ = 0 \left|\rho_{X Y}\right|=0 ρXY=0时相关程度最低, ∣ ρ X Y ∣ = 1 \left|\rho_{X Y}\right| = 1 ρXY=1时两个变量之间则存在线性关系。 ρ X Y \rho_{X Y} ρXY的正负和协方差有关,而关于协方差的较全的详细解释可参考这篇文章。


  1. Frank, I. and Friedman, J. (1993). A statistical view of some chemometrics regression tools (with discussion), Technometrics 35(2): 109–148. ↩︎

你可能感兴趣的:(ESL阅读笔记)