AI笔记: 线性回归模型优化求解

线性回归模型用到的目标函数

  • OLS的目标函数: J ( w ) = ∑ j = 1 N ( y i − f ( x i ) ) 2 J(w) = \sum_{j=1}^N(y_i - f(x_i))^2 J(w)=j=1N(yif(xi))2

    • 在最小二乘线性回归里,目标函数只包含了训练样本上的残差平方和
  • 岭回归的目标函数: J ( w ; λ ) = ∑ i = 1 N ( y i − f ( x i ) ) 2 + λ ∑ j = 1 D w j 2 ) J(w; \lambda) = \sum_{i=1}^N(y_i - f(x_i))^2 + \lambda \sum_{j=1}^D w_j^2) J(w;λ)=i=1N(yif(xi))2+λj=1Dwj2)

    • 目标函数里除了训练集上的残差平方和之外,还加了L2正则
  • Lasso回归的目标函数: J ( w ; λ ) = ∑ i = 1 N ( y i − f ( x i ) ) 2 + λ ∑ j = 1 D ∣ w j ∣ J(w;\lambda) = \sum_{i=1}^N (y_i - f(x_i))^2 + \lambda \sum_{j=1}^D |w_j| J(w;λ)=i=1N(yif(xi))2+λj=1Dwj

    • 目标函数中是把L2正则换成了L1正则

目标函数的最优解

  • 给定正则参数(超参数) λ \lambda λ 的情况下,目标函数最优解 w ^ = a r g m i n w J ( w ) \hat{w} = \underset{w}{argmin} J(w) w^=wargminJ(w)
    • w ^ \hat{w} w^是使得目标函数J(w)最小的 w
  • 最优解的必要条件: 一阶导数为0: ∂ J ( w ) ∂ w = 0 \frac{\partial J(w)}{\partial w} = 0 wJ(w)=0

OLS的最优解:正规方程组

  • OLS目标函数(矩阵形式)
AI笔记: 线性回归模型优化求解_第1张图片

OLS的最优解: Moore-Penrose广义逆

  • OLS目标函数: J ( w ) = ∣ ∣ y − X w ∣ ∣ 2 2 J(w) = ||y - Xw||_2^2 J(w)=yXw22
  • 相当于求:y = Xw
  • 如果X为方阵, 可求逆: w = X − 1 y w = X^{-1}y w=X1y
  • 如果不是方阵,可求Moore-Penrose广义逆: w = X † y w = X^\dagger y w=Xy
  • Moore-Penrose广义逆可采用奇异值分解(Singular Value Decomposition, SVD)实现:
AI笔记: 线性回归模型优化求解_第2张图片

岭回归的最优解 —— SVD分解

  • 岭回归的目标函数为: J ( w ) = ∣ ∣ y − X w ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 2 2 = ( y − W x ) T ( y − X w ) + λ w T w J(w) = ||y - Xw||_2^2 + \lambda ||w||_2^2 = (y - Wx)^T(y-Xw) + \lambda w^Tw J(w)=yXw22+λw22=(yWx)T(yXw)+λwTw
  • 偏导数: ∂ J ( w ) ∂ w = − 2 X T y + 2 ( X T X ) w + 2 λ w = 0 \frac{\partial J(w)}{\partial w} = -2X^Ty + 2(X^TX)w + 2\lambda w = 0 wJ(w)=2XTy+2(XTX)w+2λw=0 ,得到岭回归的解: w ^ R i d g e = ( X T X + λ I ) − 1 X T y \hat{w}_{Ridge} = (X^TX + \lambda I)^{-1} X^Ty w^Ridge=(XTX+λI)1XTy
  • 对比最小二乘的解: w ^ O L S = ( X T ) − 1 X T y \hat{w}_{OLS} = (X^T)^{-1}X^Ty w^OLS=(XT)1XTy
  • 岭回归的解: w ^ R i d g e = ( X T X + λ I ) − 1 X T y = ( X T X + λ I ) − 1 ( X T X ) ( X T X ) − 1 X T y = ( X T X + λ I ) − 1 ( X T X ) w ^ O L S \hat{w}_{Ridge} = (X^TX + \lambda I)^{-1}X^Ty = (X^TX + \lambda I)^{-1}(X^TX)(X^TX)^{-1}X^Ty = (X^TX + \lambda I)^{-1}(X^TX)\hat{w}_{OLS} w^Ridge=(XTX+λI)1XTy=(XTX+λI)1(XTX)(XTX)1XTy=(XTX+λI)1(XTX)w^OLS
  • w ^ R i d g e \hat{w}_{Ridge} w^Ridge w ^ O L S \hat{w}_{OLS} w^OLS的基础上进行了收缩

总结

  • OLS的解为: w ^ O L S = ( X T X ) − 1 X T y \hat{w}_{OLS} = (X^TX)^{-1}X^Ty w^OLS=(XTX)1XTy,需要对矩阵 X T X X^TX XTX求逆
  • 当输入特征存在共线性(某些特征可以用其他特征的线形组合表示),矩阵X是接近不满秩,矩阵 X T X X^TX XTX接近奇异,求逆不稳定
  • 岭回归的解为: w ^ R i d g e = ( X T X + λ I ) − 1 X T y \hat{w}_{Ridge} = (X^TX + \lambda I)^{-1}X^Ty w^Ridge=(XTX+λI)1XTy, 对矩阵 ( X T X + λ I ) (X^TX + \lambda I) (XTX+λI)求逆
  • 即使输入特征存在共线性,矩阵X不满秩,矩阵 X T X X^TX XTX对角线存在等于0或接近于0的元素,但 0 + λ ≠ 0 0 + \lambda ≠ 0 0+λ=0 ( X T X + λ I ) (X^TX + \lambda I) (XTX+λI)求逆仍可得到稳定解。因此岭回归在输入特征存在共线性的情况仍然能得到稳定解。
  • Lasso的无法求得解析解,可用迭代求解

你可能感兴趣的:(AI,线性回归模型,优化求解)