从其他的文章中我们可以了解到极大似然估计和最大后验概率估计的公式,这里不做介绍直接给出
其中极大似然估计的公式很好理解,这里的 θ \theta θ表示我们模型的参数估计, D D D表示数据
最大后验概率估计的公式怎么理解呢?其实这里的思想是加入了先验,首先我们来看贝叶斯公式
P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D) = \frac{P(D|\theta) P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)P(θ)
其中 P ( θ ) P(\theta) P(θ)是我们的先验概率, P ( θ ∣ D ) P(\theta|D) P(θ∣D)是后验概率,右边分子中的 P ( D ∣ θ ) P(D|\theta) P(D∣θ)是MLE,而整个分子就是MAP,有的人会说为什么不算分子呢,因为分子是我们的实验数据 P ( D ) P(D) P(D)是已知的,所以加不加都不影响。也就是说MAP: P ( D ∣ θ ) P ( θ ) P(D|\theta) P(\theta) P(D∣θ)P(θ),这里与MLE不同的就是乘上了先验 P ( θ ) P(\theta) P(θ)
这里我们假设抛硬币的例子(因为网上大多数教程都在抛硬币…),假设抛了十次:七个正面,三个反面,如果你不是贝叶斯学派,通过MLE计算你能得到 θ = 0.7 \theta = 0.7 θ=0.7。但是如果你是贝叶斯学派,通过MAP有人告诉你先验说这个概率就应该为0.5并且绝不会出错,所以你犹豫了,你觉得概率可能分布在0.5-0.7之间,但是具体多少呢?要根据样本数来确定,如果你没听懂这个没有关系,下面会给出详细的证明
MLE就是想让我们根据结果来找到一个最合适的模型,使得出现结果(也就是我们的数据 D D D,七个正面,三个反面)的可能性最大,假设正面的概率为 P ( θ ) P(\theta) P(θ),反面的概率为 1 − P ( θ ) 1-P(\theta) 1−P(θ),那么我们的目标为
M L E : θ ^ = arg max θ P ( θ ) 7 ( 1 − P ( θ ) ) 3 MLE:\hat\theta = \underset {\theta}{\operatorname {arg\,max}}~P(\theta)^{7}(1-P(\theta))^{3} MLE:θ^=θargmax P(θ)7(1−P(θ))3
下面我们来看这个函数的图像,从图中看出,当 P ( θ ) = 0.7 P(\theta) = 0.7 P(θ)=0.7是MLE最大,也就是说虽然我们的常识是硬币出现正反的概率为 0.5 0.5 0.5,但是频率学派不这么认为,他们认为正面出现的概率为 0.7 0.7 0.7
这里我们给出上述公式的图像
MAP是贝叶斯学派,他们的观点是要引入先验,这里的先验就是第三部分要说的正则,首先我们来看公式
M A P : θ ^ = arg max θ P ( D ∣ θ ) P ( θ ) MAP:\hat\theta = \underset {\theta}{\operatorname {arg\,max}}~P(D|\theta)P(\theta) MAP:θ^=θargmax P(D∣θ)P(θ)
我们假设硬币是从一个神秘商人那边买来的,买来的时候他说这是一枚神奇的硬币,用特殊的材料打造,质地非常均匀,古人在重大场合都用他来进行选择,所以正反概率都为0.5,但是由于时间比较久远了,硬币难免会出现一些变化,但是你对商人的话深信不疑,因此这里我们假设 P ( θ ) P(\theta) P(θ)服从 μ = 0.5 , σ = 0.1 \mu = 0.5, \sigma=0.1 μ=0.5,σ=0.1的高斯分布,也就是说正面出现的概率为0.5,出现其他概率的情况很低
然后我们进行了之前的实验,抛了十次硬币:七个正面,三个反面
你的第一反应是这个商人是个骗子!这个几率根本不是0.5!但是别急,你是一个贝叶斯学派的人,通过商人给你的先验以及你用了MAP进行计算,你绘制了MAP的图像,如下所示
仔细观察发现,概率并不是完全的0.5了!但是也接近0.5,所以你并没有觉得商人骗你,于是你继续做了100次的实验,抛了一百次硬币:七十个正面,三十个反面,然后你继续用MAP理论绘制了如下的图像
注意此时的函数公式为
P ( D ∣ θ ) P ( θ ) = θ 70 ( 1 − θ ) 30 × 1 2 π ∗ 0.1 e − ( θ − 0.5 ) 2 2 ∗ 0. 1 2 P(D|\theta)P(\theta) = \theta^{70}(1-\theta)^{30}\times \frac{1}{\sqrt{2\pi}*0.1}e^{-\frac{(\theta-0.5)^{2}}{2*0.1^{2}}} P(D∣θ)P(θ)=θ70(1−θ)30×2π∗0.11e−2∗0.12(θ−0.5)2
这时你发现概率已经远远偏离了0.5,这时你已经开始紧张了,商人卖给你了假币!但是这时你还保持冷静不断的安慰自己,不然钱都打水漂了,一定是样本还不够多导致的,于是你进行了第三次实验
抛了一千次硬币:七百个正面,三百个反面,然后你继续用MAP理论绘制了如下的图像
这时你彻底坐不住了,这一定是假币,你被骗了,你很愤怒回去找商人投诉去了,即使是贝叶斯也就救不了他了
以上图像代码
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 1, 1000)
# y = np.power(x, 7) * np.power(1-x, 3)
# y = np.exp(-np.power(x-0.5, 2) / (2*np.power(0.1, 2))) / (np.sqrt(2*np.pi)*0.1)
# y = (np.exp(-np.power(x-0.5, 2) / (2*np.power(0.1, 2))) / (np.sqrt(2*np.pi)*0.1)) * np.power(x, 7) * np.power(1-x, 3)
# y = (np.exp(-np.power(x-0.5, 2) / (2*np.power(0.1, 2))) / (np.sqrt(2*np.pi)*0.1)) * np.power(x, 70) * np.power(1-x, 30)
y = (np.exp(-np.power(x-0.5, 2) / (2*np.power(0.1, 2))) / (np.sqrt(2*np.pi)*0.1)) * np.power(x, 700) * np.power(1-x, 300)
plt.plot(x, y, ls="-", lw=2, label="plot figure")
plt.legend()
plt.show()
到这里可以发现,当样本足够多的时候,MAP会不断接近MLE,也就是说MAP几乎完全就是MLE了
为什么呢?我们在第三部分的最后讲解
MLE是最大化 arg max θ P ( D ∣ θ ) \underset {\theta}{\operatorname {arg\,max}}~P(D|\theta) θargmax P(D∣θ),这里我们进行了 n n n次实验, θ \theta θ用 w , b w,b w,b来描述
M L E : P ( D ∣ w , b ) = arg max w ∏ i = 1 n P ( y i ∣ x i , w , b ) MLE:P(D|w,b) = \underset {w}{\operatorname {arg\,max}} \prod _{i=1}^{n}P(y_{i}|x_{i},w,b) MLE:P(D∣w,b)=wargmaxi=1∏nP(yi∣xi,w,b)
假设分布为高斯分布,下面求解为什么MAP乘上的先验就是正则,为了方便参数只取 w w w
P ( D ∣ w ) = arg max w ∏ i = 1 n P ( y i ∣ x i , w ) × P ( w ) = arg max w ∑ i = 1 n l o g P ( y i ∣ x i , w ) + l o g P ( w ) \begin{aligned} P(D|w) & = \underset {w}{\operatorname {arg\,max}} \prod _{i=1}^{n}P(y_{i}|x_{i},w) \times P(w)\\ & = \underset {w}{\operatorname {arg\,max}} \sum_{i=1}^{n} logP(y_{i}|x_{i},w) + logP(w) \end{aligned} P(D∣w)=wargmaxi=1∏nP(yi∣xi,w)×P(w)=wargmaxi=1∑nlogP(yi∣xi,w)+logP(w)
其中加号前一部分就是MLE,这里的 l o g P ( w ) logP(w) logP(w)就是正则,我们单独把 l o g P ( w ) logP(w) logP(w)拿出来进行讨论,假设 P ( w ) P(w) P(w)服从高斯分布 P ( w ) ~ N ( 0 , σ 2 ) P(w)~N(0, \sigma^{2}) P(w)~N(0,σ2),带入
l o g P ( w ) = l o g ( 1 2 π ∗ σ e − w 2 2 ∗ σ 2 ) = l o g ( 1 2 π ∗ σ ) + l o g ( e − w 2 2 ∗ σ 2 ) = − l o g ( 2 π ∗ σ ) − w 2 2 ∗ σ 2 = c o n s t − λ w 2 \begin{aligned} logP(w) & = log(\frac{1}{\sqrt{2\pi}*\sigma}e^{-\frac{w^{2}}{2*\sigma^{2}}}) \\ & = log(\frac{1}{\sqrt{2\pi}*\sigma})+log(e^{-\frac{w^{2}}{2*\sigma^{2}}}) \\ & = -log(\sqrt{2\pi}*\sigma) - \frac{w^{2}}{2*\sigma^{2}} \\ & = const-\lambda w^{2} \end{aligned} logP(w)=log(2π∗σ1e−2∗σ2w2)=log(2π∗σ1)+log(e−2∗σ2w2)=−log(2π∗σ)−2∗σ2w2=const−λw2
注意
当我们在把 l o g P ( w ) logP(w) logP(w)带回原来的式子时
P ( D ∣ w ) = arg max w ∑ i = 1 n l o g P ( y i ∣ x i , w ) − λ w 2 + c o n s t → arg max w ∑ i = 1 n l o g P ( y i ∣ x i , w ) − λ w 2 = arg max w ∑ i = 1 n l o g P ( y i ∣ x i , w ) − λ ∣ ∣ w ∣ ∣ 2 2 \begin{aligned} P(D|w) & = \underset {w}{\operatorname {arg\,max}} \sum_{i=1}^{n} logP(y_{i}|x_{i},w) - \lambda w^{2} + const \\ & \rightarrow \underset {w}{\operatorname {arg\,max}} \sum_{i=1}^{n} logP(y_{i}|x_{i},w) - \lambda w^{2} \\ & = \underset {w}{\operatorname {arg\,max}} \sum_{i=1}^{n} logP(y_{i}|x_{i},w) - \lambda ||w||_{2}^{2} \end{aligned} P(D∣w)=wargmaxi=1∑nlogP(yi∣xi,w)−λw2+const→wargmaxi=1∑nlogP(yi∣xi,w)−λw2=wargmaxi=1∑nlogP(yi∣xi,w)−λ∣∣w∣∣22
这就出现了 L 2 L2 L2正则,这就是为什么先验就是正则的原因
上面我们假设了分布是高斯分布,所以是 L 2 L2 L2正则,这里我们假设分布为拉普拉斯分布,结果就是 L 1 L1 L1正则
拉普拉斯分布:
f ( x ) = 1 2 b e − ∣ x − μ ∣ b f(x) = \frac{1}{2b} e^{-\frac{|x-\mu|}{b}} f(x)=2b1e−b∣x−μ∣
前面的证明和高斯分布是相同的
P ( D ∣ w ) = arg max w ∏ i = 1 n P ( y i ∣ x i , w ) × P ( w ) = arg max w ∑ i = 1 n l o g P ( y i ∣ x i , w ) + l o g P ( w ) \begin{aligned} P(D|w) & = \underset {w}{\operatorname {arg\,max}} \prod _{i=1}^{n}P(y_{i}|x_{i},w) \times P(w)\\ & = \underset {w}{\operatorname {arg\,max}} \sum_{i=1}^{n} logP(y_{i}|x_{i},w) + logP(w) \end{aligned} P(D∣w)=wargmaxi=1∏nP(yi∣xi,w)×P(w)=wargmaxi=1∑nlogP(yi∣xi,w)+logP(w)
把 l o g P ( w ) logP(w) logP(w)拿出来进行讨论,这里依然假设 μ = 0 \mu = 0 μ=0
l o g P ( w ) = l o g 1 2 b e − ∣ w ∣ b = l o g 1 2 b + l o g e − ∣ w ∣ b = l o g 1 2 b − ∣ w ∣ b = c o n s t − λ ∣ w ∣ = c o n s t − λ ∣ ∣ w ∣ ∣ 1 \begin{aligned} logP(w) & = log\frac{1}{2b} e^{-\frac{|w|}{b}} \\ & = log\frac{1}{2b} + loge^{-\frac{|w|}{b}} \\ & = log\frac{1}{2b} - \frac{|w|}{b} \\ & = const - \lambda |w| \\ & = const - \lambda||w||_{1} \end{aligned} logP(w)=log2b1e−b∣w∣=log2b1+loge−b∣w∣=log2b1−b∣w∣=const−λ∣w∣=const−λ∣∣w∣∣1
其实从公式来看,MAP永远不等于MLE,因为
M L E : arg max θ ∑ i = 1 n l o g P ( y i ∣ x i , θ ) M A P : arg max θ ∑ i = 1 n l o g P ( y i ∣ x i , θ ) + l o g P ( θ ) \begin{aligned} MLE & : \underset {\theta}{\operatorname {arg\,max}} \sum_{i=1}^{n} logP(y_{i}|x_{i},\theta) \\ MAP & : \underset {\theta}{\operatorname {arg\,max}} \sum_{i=1}^{n} logP(y_{i}|x_{i},\theta) + logP(\theta) \end{aligned} MLEMAP:θargmaxi=1∑nlogP(yi∣xi,θ):θargmaxi=1∑nlogP(yi∣xi,θ)+logP(θ)
但是看到前面的求和了吗,当我们的 n n n也就是样本不断增加的时候,第二项先验的作用会被不断的削弱,所以就会出现上面的抛一千次硬币之后 M A P ≈ M L E MAP \approx MLE MAP≈MLE的情况了