Leverage杠杆是一个指标,描述了样本对模型的影响程度
高杠杆点本质是一种离群点,但是它不同于普通离群点,和拟合直线比较远,而是离开群体远,却在拟合直线附近。为了,拟合得更好,拟合直线需要靠近这点以减少拟合误差。这样导致了直线偏离了其他的点,这点相当于一个支点。个人认为这是杠杆的由来。
y = X β + ϵ , X ∈ R m × n , y ∈ R m × 1 , ϵ ∼ N ( 0 , σ 2 ) β ^ = ( X T X ) − 1 X T y y = X\beta+\epsilon,X\in \mathbb{R}^{m \times n},y \in \mathbb{R}^{m \times 1},\epsilon \sim N(0,\sigma^2)\\\hat{\beta}=(X^TX)^{-1}X^Ty y=Xβ+ϵ,X∈Rm×n,y∈Rm×1,ϵ∼N(0,σ2)β^=(XTX)−1XTy
y ^ = X β ^ = X ( X T X ) − 1 X T y = H y = ∑ i = 1 m ( h c i y i ) \hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty=Hy=\sum_{i=1}^m(h_{ci}y_i) y^=Xβ^=X(XTX)−1XTy=Hy=i=1∑m(hciyi)
H H H是正交投影矩阵,符合 H 2 = H H^2=H H2=H, h c i h_{ci} hci表示H的第i列,类似地,用 h r i T h_{ri}^T hriT表示H的第i行, h i j h_{ij} hij表示H的一个元素
h i , j = x i T ( X T X ) − 1 x j h_{i,j}=x_i^T(X^TX)^{-1}x_j hi,j=xiT(XTX)−1xj,反应了样本i和样本j之间的影响
y i ^ = h r i T y = ∑ j = 1 m ( h i j y j ) ∂ y i ^ ∂ y i = h i i \hat{y_i}=h_{ri}^Ty=\sum_{j=1}^m(h_{ij}y_j)\\\frac{\partial \hat{y_i}}{\partial y_i}=h_{ii} yi^=hriTy=j=1∑m(hijyj)∂yi∂yi^=hii
e = y − y ^ V a r ( e ) = V a r ( y − y ^ ) = V a r ( ( I − H ) y ) = ( I − H ) T V a r ( y ) ( I − H ) = σ 2 ( I − H ) e=y-\hat{y}\\Var(e)=Var(y-\hat{y})=Var((I-H)y)=(I-H)^TVar(y)(I-H)=\sigma ^2(I-H) e=y−y^Var(e)=Var(y−y^)=Var((I−H)y)=(I−H)TVar(y)(I−H)=σ2(I−H)
得到 V a r ( e i ) = ( 1 − h i i ) σ 2 Var(e_i)=(1-h_{ii})\sigma^2 Var(ei)=(1−hii)σ2
显然, h i i h_{ii} hii越大,噪声越小
经过上面的分析可以知道, h i i = x i T ( X T X ) − 1 x i h_{ii}=x_i^T(X^TX)^{-1}x_i hii=xiT(XTX)−1xi
这里的意义在哪里呢,先理解 y ^ = X ( X T X ) X T y \hat{y}=X(X^TX)X^Ty y^=X(XTX)XTy的意义
S V D ( X ) = U Σ V T SVD(X) = U\Sigma V^T SVD(X)=UΣVT,U代表X的列空间,V代表了行空间
y = y ^ + y ⊥ C o l ( X ) y = \hat{y}+y\perp Col(X) y=y^+y⊥Col(X),y分解平行与列空间 C o l ( X ) Col(X) Col(X)和正交于 C o l ( X ) Col(X) Col(X)的部分
y ^ \hat{y} y^属于 C o l ( X ) Col(X) Col(X), r = R a n k ( X ) r=Rank(X) r=Rank(X),则可以表示为 y ^ = ∑ i = 1 r α i u i \hat{y}=\sum_{i=1}^r\alpha_iu_i y^=∑i=1rαiui
经过 X T y X^Ty XTy,发生两个作用
再看看
h i i = x i T ( X T X ) − 1 x i h_{ii}=x_i^T(X^TX)^{-1}x_i hii=xiT(XTX)−1xi
类似地,有 x i = ∑ i = 1 r θ i v i x_i=\sum_{i=1}^r\theta_iv_i xi=∑i=1rθivi
h i i = x i T ( V Σ − 2 V T ) x i h_{ii}=x_i^T(V\Sigma^{-2}V^T)x_i hii=xiT(VΣ−2VT)xi
假设 p = ∣ ∣ x i ∣ ∣ = s q r t ( ∑ i = 1 r θ i 2 ) p=||x_i||=sqrt(\sum_{i=1}^r\theta_i^2) p=∣∣xi∣∣=sqrt(∑i=1rθi2)
h i i = ∑ i = 1 r ( θ i / λ i ) 2 h_{ii}=\sum_{i=1}^r(\theta_i/\lambda_i)^2 hii=i=1∑r(θi/λi)2
λ 1 2 > = ⋯ > = λ r 2 \lambda_1^2>=\cdots>=\lambda_r^2 λ12>=⋯>=λr2为X的奇异值
可以发现,令 θ i \theta_i θi变大后,会导致p变大, h i i h_{ii} hii也会变大,只是变得幅度跟对应的
λ i \lambda_i λi成反比。得出的结果是,在主成分方向,由于 λ i \lambda_i λi比较大, h i i h_{ii} hii变大的幅度比较慢,反之,变化较快。
studentized residual
t i = e i σ ^ 1 − h i i t_i=\frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}} ti=σ^1−hiiei
可见,具有大的 h i i h_{ii} hii的样本具有放大残差的能力。所以为了减少总体的残差了,模型偏向于去减少这些样本的残差,从而导致了所谓杠杆效应。
参考
https://en.wikipedia.org/wiki/Leverage_(statistics)
https://www.zhihu.com/question/36224636/answer/66618532