机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度

一、正则化-岭回归-频率角度

回顾:

Loss Function:

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第1张图片

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第2张图片

过拟合的解决方法:

①最直接:加数据

②降维(特征选择/特征提取(PCA))

③正则化(对参数空间,例如w的约束)

正则化的框架:

L(w) + \lambda P(w)

L(w):Loss Function  λ:惩罚系数  P(w):penalty(惩罚项))

即优化的目标为:argmin[L(w) + \lambda P(w)]

若为L_{1}正则化:Lasso回归     P(w) = ||w||_{1}

若为L_{2}正则化:岭回归           P(w) = ||w||_{2}w^{T}w

(备注L_{2}正则化又叫权重衰减)

优化目标函数:

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第3张图片

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第4张图片

接下来就对J(w)求极值计算w的最优值:

目标:w\hat{} = argminJ(w)

过程:

\frac{\partial J(w)}{\partial x} = 2(X^{T}X + \lambda E)\omega - 2X^{T}Y=0

(X^{T}X + \lambda E)\omega =X^{T}Y

\omega \hat{} = (X^{T}X + \lambda E)^{-1}X^{T}Y(岭回归下得到的解析解)

二、正则化-岭回归-贝叶斯角度 

回顾:

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第5张图片

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第6张图片

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第7张图片

 目标:argmaxP(y|w)*P(w)

机器学习-(手推)线性回归3-正则化-岭回归(Ridge)-频率角度&贝叶斯角度_第8张图片

 结论:

①无正则化:最小二乘法(LSE) 等价于   最大似然估计(MLE)-(noise服从高斯分布)

L_{2}正则化:Regularized LSE  等价于  最大后验估计(MAP)-(noise服从高斯分布)

你可能感兴趣的:(机器学习,线性回归,人工智能,线性回归)