上一节介绍了 L 2 L_2 L2正则化在线性回归中的应用——岭回归。本节将从概率密度函数的角度重新认识岭回归。
在极大似然估计与最大后验概率估计中介绍过,先验分布表示进行试验之前,通过 以往经验或者认知 角度得到的概率分布。
仍然以 投掷质地均匀硬币 为例,在我们投掷硬币之前,就已经在大脑中已经构思了一个概率分布:正面向上的概率=反面向上的概率=0.5。
而极大似然估计只认准 存在即合理,完全不顾先验知识。从而在有限样本的情况下,其计算的概率分布结果相较于 考虑了先验分布的最大后验概率估计的准确性要差一些。
示例:
投掷10次质地均匀的硬币,投掷结果仅包含 正面向上 和 反面向上 两种情况。投掷结果:正面向上 P ( U p ) = 0.7 P(Up) = 0.7 P(Up)=0.7,反面向上 P ( D o w n ) = 0.3 P(Down)=0.3 P(Down)=0.3。设概率模型为 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ),分别使用极大似然估计和最大后验概率估计去计算投掷硬币事件的概率分布。
令先验分布
P ( θ ) P(\theta) P(θ)是均值为0.5,方差为0.1的的高斯分布。
观察上述两个结果,有先验分布参与的最大后验概率估计得到的概率模型参数 θ M A P \theta_{MAP} θMAP更接近常规思维下的认知。因此,在样本数量有限的情况下,最大后验概率估计对模型参数估计的准确性要优于极大似然估计。先验分布在整个过程中起到的作用主要是矫正似然估计的偏差。
在从概率密度函数角度认识最小二乘法中介绍过,最小二乘法求解最优模型参数本质上是基于标签/因变量噪声属于均值为0高斯分布的极大似然估计结果。即:
y = f ( W ) + ϵ = W T x ( i ) + ϵ ( i = 1 , 2 , ⋯ , N ) ϵ ∼ N ( μ , σ 2 ) → P ( y ( i ) ∣ x ( i ) ; W ) ∼ N ( W T x ( i ) + 0 , σ 2 ) ( i = 1 , 2 , ⋯ , N ) y = f(\mathcal W) +\epsilon = \mathcal W^{T}x^{(i)} +\epsilon(i=1,2,\cdots,N)\\ \epsilon \sim \mathcal N(\mu,\sigma^2) \to P(y^{(i)} \mid x^{(i)};\mathcal W) \sim \mathcal N(\mathcal W^{T}x^{(i)} + 0,\sigma^2)(i=1,2,\cdots,N) y=f(W)+ϵ=WTx(i)+ϵ(i=1,2,⋯,N)ϵ∼N(μ,σ2)→P(y(i)∣x(i);W)∼N(WTx(i)+0,σ2)(i=1,2,⋯,N)
从上面公式中观察: x ( i ) ( i = 1 , 2 , ⋯ , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,⋯,N),它可以被视为与变量 W \mathcal W W进行线性计算的工具信息: x ( i ) x^{(i)} x(i)是样本提供的已知信息,而不是变量;
因此,干脆将 x ( i ) ( i = 1 , 2 , ⋯ , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,⋯,N)看做常量,概率密度函数 P ( y ( i ) ∣ x ( i ) ; W ) P(y^{(i)} \mid x^{(i)};\mathcal W) P(y(i)∣x(i);W)化简为如下形式:
P ( y ( i ) ∣ W ) = 1 2 π σ e − ( y ( i ) − W T x ( i ) ) 2 2 σ 2 ( i = 1 , 2 , ⋯ , N ) P(y^{(i)} \mid \mathcal W) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(y^{(i) - \mathcal W^{T}x^{(i)}}\right)^2}{2\sigma^2}}(i=1,2,\cdots,N) P(y(i)∣W)=2πσ1e−2σ2(y(i)−WTx(i))2(i=1,2,⋯,N)
既然在有限样本条件下,最大后验概率估计方法能够得到 更符合认知的、更准确的 模型参数估计结果。而此时的最小二乘法只是一个基于极大似然估计的模型参数结果,我们是否也可以通过最大后验概率估计方法去求解模型参数呢?
自然是可以的。但是条件不足——没有关于模型参数 W \mathcal W W的先验分布。因此,我们对模型参数的先验分布进行假设:
假设模型参数 W \mathcal W W服从均值为 μ 0 \mu_0 μ0,方差为 σ 0 2 \sigma_0^2 σ02的高斯分布。即:
W ∼ N ( μ 0 , σ 0 2 ) \mathcal W \sim \mathcal N(\mu_0,\sigma_0^2) W∼N(μ0,σ02)
那么关于模型参数 W \mathcal W W的先验分布 P ( W ) P(\mathcal W) P(W)的概率密度函数表示如下:
P ( W ) = 1 2 π σ 0 e − ( W − μ 0 ) 2 2 σ 0 2 P(\mathcal W) = \frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(\mathcal W - \mu_0)^2}{2\sigma_0^2}} P(W)=2πσ01e−2σ02(W−μ0)2
从最大后验估计方法求解最优模型参数 W ^ M A P \hat {\mathcal W}_{MAP} W^MAP的角度观察,它的底层思想自然是贝叶斯定理。基于模型参数 W \mathcal W W的贝叶斯定理表示如下:
X = { x ( i ) } ∣ i = 1 , 2 , ⋯ , N \mathcal X = \{x^{(i)}\}|_{i=1,2,\cdots,N} X={x(i)}∣i=1,2,⋯,N理解为常量,不显示;
P ( W ∣ Y ) = P ( Y ∣ W ) P ( W ) P ( Y ) P(\mathcal W \mid \mathcal Y) = \frac{P(\mathcal Y \mid \mathcal W)P(\mathcal W)}{P(\mathcal Y)} P(W∣Y)=P(Y)P(Y∣W)P(W)
对应的最大后验概率估计表示如下:
W ^ M A P = arg max W P ( Y ∣ W ) P ( W ) P ( Y ) \hat {\mathcal W}_{MAP} = \mathop{\arg\max}\limits_{\mathcal W} \frac{P(\mathcal Y \mid \mathcal W)P(\mathcal W)}{P(\mathcal Y)} W^MAP=WargmaxP(Y)P(Y∣W)P(W)
由于分母 P ( Y ) P(\mathcal Y) P(Y)不含 W \mathcal W W,因此上述公式等价于:
W ^ M A P ∝ P ( Y ∣ W ) P ( W ) \hat{\mathcal W}_{MAP} \propto P(\mathcal Y \mid \mathcal W)P(\mathcal W) W^MAP∝P(Y∣W)P(W)
观察 P ( Y ∣ W ) P(\mathcal Y \mid \mathcal W) P(Y∣W),它就是简化后的似然函数; P ( W ) P(\mathcal W) P(W)自然是假设的先验分布。
将上述公式展开,为计算方便,添加一个 log \log log函数:
添加log函数原因详见
传送门
W ^ M A P ∝ arg max W [ log ∏ i = 1 N P ( y ( i ) ∣ W ) P ( W ) ] = arg max W [ ∑ i = 1 N log P ( y ( i ) ∣ W ) P ( W ) ] \begin{aligned} \hat{\mathcal W}_{MAP} & \propto \mathop{\arg\max}\limits_{\mathcal W}\left[ \log \prod_{i=1}^N P(y^{(i)} \mid \mathcal W)P(\mathcal W)\right]\\ & = \mathop{\arg\max}\limits_{\mathcal W}\left[\sum_{i=1}^N \log P(y^{(i)} \mid \mathcal W)P(\mathcal W)\right] \end{aligned} W^MAP∝Wargmax[logi=1∏NP(y(i)∣W)P(W)]=Wargmax[i=1∑NlogP(y(i)∣W)P(W)]
根据上述 P ( y ( i ∣ W ) , P ( W ) P(y^{(i} \mid \mathcal W),P(\mathcal W) P(y(i∣W),P(W)的分布进行展开:
arg max W [ ∑ i = 1 N log ( ( 1 2 π σ e − ( y ( i ) − W T x ( i ) ) 2 2 σ 2 ) ( 1 2 π σ 0 e − ( W − μ 0 ) 2 2 σ 0 2 ) ) ] arg max W ∑ i = 1 N log ( 1 2 π σ ) + log ( 1 2 π σ 0 ) + log e − ( y ( i ) − W T x ( i ) ) 2 2 σ 2 + log e − ( W − μ 0 ) 2 2 σ 0 2 \mathop{\arg\max}\limits_{\mathcal W}\left[\sum_{i=1}^N\log\left(\left(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(y^{(i)} - \mathcal W^{T}x^{(i)}\right)^2}{2\sigma^2}}\right)\left(\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(\mathcal W - \mu_0)^2}{2\sigma_0^2}}\right)\right)\right] \\ \mathop{\arg\max}\limits_{\mathcal W}\sum_{i=1}^N \log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) + \log\left(\frac{1}{\sqrt{2\pi}\sigma_0}\right) + \log e^{-\frac{\left(y^{(i)} - \mathcal W^{T}x^{(i)}\right)^2}{2\sigma^2}} + \log e^{-\frac{(\mathcal W - \mu_0)^2}{2\sigma_0^2}} Wargmax[i=1∑Nlog((2πσ1e−2σ2(y(i)−WTx(i))2)(2πσ01e−2σ02(W−μ0)2))]Wargmaxi=1∑Nlog(2πσ1)+log(2πσ01)+loge−2σ2(y(i)−WTx(i))2+loge−2σ02(W−μ0)2
由于 log ( 1 2 π σ ) \log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) log(2πσ1)和 log ( 1 2 π σ 0 ) \log\left(\frac{1}{\sqrt{2\pi}\sigma_0}\right) log(2πσ01)内部均不含 W \mathcal W W,因此其结果不影响 W \mathcal W W的取值。消掉; log \log log和 e e e消掉,化简得:
arg max W ∑ i = 1 N ( − ( y ( i ) − W T x ( i ) ) 2 2 σ 2 − ( W − μ 0 ) 2 2 σ 0 2 ) arg min W ∑ i = 1 N ( ( W − μ 0 ) 2 2 σ 0 2 + ( y ( i ) − W T x ( i ) ) 2 2 σ 2 ) \begin{aligned} \mathop{\arg\max}\limits_{\mathcal W}\sum_{i=1}^N \left(-\frac{\left(y^{(i)} - \mathcal W^{T}x^{(i)}\right)^2}{2\sigma^2}-\frac{(\mathcal W - \mu_0)^2}{2\sigma_0^2}\right) \\ \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N\left(\frac{(\mathcal W - \mu_0)^2}{2\sigma_0^2} +\frac{\left(y^{(i)} - \mathcal W^{T}x^{(i)}\right)^2}{2\sigma^2}\right) \end{aligned} Wargmaxi=1∑N(−2σ2(y(i)−WTx(i))2−2σ02(W−μ0)2)Wargmini=1∑N(2σ02(W−μ0)2+2σ2(y(i)−WTx(i))2)
整理一下分母,将整个式子乘以 2 σ 2 2\sigma^2 2σ2( σ \sigma σ不影响最优模型参数的求解):
arg min W ∑ i = 1 N [ ( y ( i ) − W T x ( i ) ) 2 + σ 2 σ 0 2 ( W − μ 0 ) 2 ] \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N \left[\left(y^{(i)} - \mathcal W^{T}x^{(i)}\right)^2 + \frac{\sigma^2}{\sigma_0^2}(\mathcal W - \mu_0)^2\right] Wargmini=1∑N[(y(i)−WTx(i))2+σ02σ2(W−μ0)2]
发现:当 μ 0 = 0 \mu_0=0 μ0=0时, ( W − μ 0 ) 2 = W 2 (\mathcal W - \mu_0)^2 = \mathcal W^2 (W−μ0)2=W2,由于 W \mathcal W W自身是 p p p维向量, W 2 \mathcal W^2 W2表示为:
W 2 = W T W = w 1 2 + w 2 2 + ⋯ + w p 2 = ∣ ∣ W ∣ ∣ 2 2 \mathcal W^2 = \mathcal W^{T}\mathcal W = w_1^2 + w_2^2 + \cdots + w_p^2=||\mathcal W||_2^2 W2=WTW=w12+w22+⋯+wp2=∣∣W∣∣22
令 λ = σ 2 σ 0 2 \lambda= \frac{\sigma^2}{\sigma_0^2} λ=σ02σ2最终表示结果为:
W ^ M A P = arg min W ∑ i = 1 N [ ( y ( i ) − W T x ( i ) ) 2 + λ ∣ ∣ W ∣ ∣ 2 2 ] \hat {\mathcal W}_{MAP} = \mathop{\arg\min}\limits_{\mathcal W}\sum_{i=1}^N \left[\left(y^{(i)} - \mathcal W^{T}x^{(i)}\right)^2 + \lambda||\mathcal W||_2^2\right] W^MAP=Wargmini=1∑N[(y(i)−WTx(i))2+λ∣∣W∣∣22]
我们发现,岭回归可以理解为:概率模型 P ( Y ∣ W ) ∼ N ( W T X , σ 2 ) P(\mathcal Y \mid \mathcal W) \sim \mathcal N(\mathcal W^{T}\mathcal X,\sigma^2) P(Y∣W)∼N(WTX,σ2),先验分布 P ( W ) ∼ N ( μ 0 = 0 , σ 0 2 ) P(\mathcal W) \sim \mathcal N(\mu_0 = 0,\sigma_0^2) P(W)∼N(μ0=0,σ02)条件下,使用最大后验概率估计方法去计算最优模型参数。 相比于极大似然估计方法的最小二乘法计算结果要更加准确。
在深度学习中,模型经过反向传播,每一次反向传播都会更新模型参数;而下一次更新结果都会以当前反向传播的更新结果作为先验分布,从而参与模型参数 W \mathcal W W的迭代更新。
相关参考:
概率密度角度观察岭回归