线性回归中 LSE MLE MAP之间的关系

记目标方程为 f ( X ) = w ⊤ X {f(X) = w^\top X} f(X)=wX,其中 w {w} w P {P} P维向量, X {X} X为大小为 N × P {N\times P} N×P的矩阵
x i {x_i} xi对应的真实值为 y i {y_i} yi


一、MLE

  MLE(Maximum Likelihood Estimate),也叫极大似然估计,是频率学派中的一种参数估计方法。其主要思想为,通过最大化 X {X} X的对数似然函数,得到使当前 X {X} X取到真实值的概率最大的参数 w {w} w。其公式如下:
w ^ = arg ⁡ max ⁡ l n P ( X ∣ w ) . {\hat{w} = \arg\max lnP(X|w)}. w^=argmaxlnP(Xw).


二、MAP

  MAP(Maximum A Posteriori Estimation),也叫极大后验估计,是贝叶斯学派中的一种参数估计方法。该方法基于贝叶斯公式:
P ( w ∣ X ) = P ( X ∣ w ) ⋅ P ( w ) P ( X ) , {P(w|X) = \frac{P(X|w)\cdot P(w)}{P(X)}}, P(wX)=P(X)P(Xw)P(w),其中 P ( X ) {P(X)} P(X)称为先验概率, P ( w ∣ X ) {P(w|X)} P(wX)称为后验概率。极大后验估计即为通过最大化 X {X} X的后验概率,得到最优的参数 w {w} w。其公式如下:
w ^ = arg ⁡ max ⁡ P ( w ∣ X ) . {\hat{w} = \arg\max P(w|X)}. w^=argmaxP(wX).由贝叶斯公式可得,
P ( w ∣ X ) ∝ P ( X ∣ w ) ⋅ P ( w ) , {P(w|X) \propto P(X|w)\cdot P(w)}, P(wX)P(Xw)P(w),所以上述公式又可以写成
w ^ = arg ⁡ max ⁡ P ( X ∣ w ) ⋅ P ( w ) . {\hat{w} = \arg\max P(X|w)\cdot P(w)}. w^=argmaxP(Xw)P(w).  由最大后验估计的公式可以看出,它并没有算出 P ( w ∣ X ) {P(w|X)} P(wX),所以并没有得到 X {X} X的生成模型,这就是最大后验估计与贝叶斯估计的区别。


三、LSE

  LSE(Least Square Estimation),也叫最小二乘估计。其公式如下:
L ( w ) = 1 2 ∑ i = 1 n ( w ⊤ x i − y i ) 2 = w ⊤ X ⊤ − Y ⊤ , {L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 = w^\top X^\top-Y^\top}, L(w)=21i=1n(wxiyi)2=wXY, w ^ = arg ⁡ min ⁡ L ( w ) . {\hat{w} = \arg\min L(w)}. w^=argminL(w).这里的 1 2 {\frac{1}{2}} 21是为了微分时消去不必要的参数。
  根据该公式,对矩阵微分可得, w ^ {\hat{w}} w^的解析解为:
w ^ = ( X ⊤ X ) − 1 X ⊤ Y . {\hat{w} = (X^\top X)^{-1}X^\top Y}. w^=(XX)1XY.  但其中的 X ⊤ X {X^\top X} XX项并不一定可逆。例如当特征空间的维度大于样本数时,我们无法通过少量的样本来拟合出目标函数,这就会导致过拟合。解决方法通常为降维和正则化,接下来主要介绍正则化。
  正则化指的是在损失函数 L ( w ) {L(w)} L(w)中添加一个正则化项(也叫正则罚项或惩罚项)。常用的正则化项有 L 1 {L_1} L1范数和 L 2 {L_2} L2范数,分别对应 L a s s o {Lasso} Lasso回归和 R i d g e {Ridge} Ridge回归。这里主要介绍 L 2 {L_2} L2正则。
   L 2 {L_2} L2范数的公式为
∣ ∣ w ∣ ∣ 2 = ∑ i = 1 n w i 2 = w ⊤ w , {||w||_2 = \sqrt{\sum_{i=1}^{n}w_i^2} = \sqrt{w^\top w}}, w2=i=1nwi2 =ww ,这里使用 ∣ ∣ w ∣ ∣ 2 2 {||w||_2^2} w22作为正则化项,则添加 L 2 {L_2} L2正则后的损失函数为
L ( w ) = 1 2 ∑ i = 1 n ( w ⊤ x i − y i ) 2 + λ w ⊤ w = ( X ⊤ X + λ I ) − 1 X ⊤ Y . {L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 + \lambda w^\top w = (X^\top X + \lambda I)^{-1}X^\top Y}. L(w)=21i=1n(wxiyi)2+λww=(XX+λI)1XY.  不难看出, X ⊤ X {X^\top X} XX为半正定矩阵, λ I {\lambda I} λI为单位矩阵,相加后为正定矩阵,一定可逆,所以我们就通过给损失函数添加 L 2 {L_2} L2正则解决了过拟合的问题。


四、关系

  将样本真实值视作预测值加一定程度的噪声 ε {\varepsilon} ε,即
y i = f ( x i ) + ε . {y_i = f(x_i) + \varepsilon}. yi=f(xi)+ε.
  若假设 ε ∼ N ( 0 , σ 1 2 ) {\varepsilon \sim N(0,\sigma_1^2)} εN(0,σ12),则MLE的公式可化为
w ^ = arg ⁡ min ⁡ 1 2 ∑ i = 1 n ( y i − w ⊤ x i ) 2 , {\hat{w} = \arg\min\frac{1}{2} \sum_{i=1}^{n} (y_i-w^\top x_i)^2}, w^=argmin21i=1n(yiwxi)2,与LSE的公式完全相同。由此可得,不添加正则化项时,LSE即为噪声服从高斯分布时的MLE
  若假设 w ∼ N ( 0 , σ 2 2 ) {w \sim N(0,\sigma_2^2)} wN(0,σ22),则MAP公式可化为
w ^ = arg ⁡ min ⁡   ∑ i = 1 n ( y i − w ⊤ x i ) 2 + σ 1 2 σ 2 2 ∣ ∣ w ∣ ∣ 2 2 , {\hat{w} = \arg\min\ \sum_{i=1}^{n} (y_i-w^\top x_i)^2 + \frac{\sigma_1^2}{\sigma_2^2}||w||_2^2}, w^=argmin i=1n(yiwxi)2+σ22σ12w22,与LSE的公式完全相同,其中 λ = σ 1 2 σ 2 2 {\lambda = \frac{\sigma_1^2}{\sigma_2^2}} λ=σ22σ12。由此可得,添加正则化项时,LSE即为噪声和 w {w} w均服从高斯分布时的MAP


参考:https://www.bilibili.com/video/av31989606

你可能感兴趣的:(机器学习)