最大似然估计(MLE)和最大后验概率估计(MAP)

最大似然估计(MLE)和最大后验概率估计(MAP)是很常用的两种参数估计方法。下文将详细说明MLE和MAP的思路与区别。
但别急,我们先从概率和统计的区别讲起。
一、概率和统计是一个东西吗?
概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。
概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。
一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

二、最大似然估计(MLE)
假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为θ)各是多少?

这是一个统计问题,回想一下,解决统计问题需要什么? 数据!

于是我们拿这枚硬币抛了10次,得到的数据(x0x0)是:反正正正正反正正正反。我们想求的正面概率θθ是模型参数,而抛硬币模型我们可以假设是 二项分布。

那么,出现实验结果 x 0 x_0 x0(即反正正正正反正正正反)的似然函数是多少呢?
f( x 0 x_0 x0,θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)= θ 7 θ^7 θ7 ( ( 1 − θ ) 3 ((1−θ)^3 ((1θ)3=f(θ)
这是个只关于θ的函数。而最大似然估计,就是要最大化这个函数。我们可以画出f(θ)的图像:
最大似然估计(MLE)和最大后验概率估计(MAP)_第1张图片
可以看出,在θ=0.7时,似然函数取得最大值。

这样,我们已经完成了对θ的最大似然估计。即抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。

且慢,一些人可能会说,硬币一般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信θ=0.7。
这里就包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计。

三、最大后验概率估计
最大似然估计是求参数θ, 使似然函数P x 0 x_0 x0|θ)最大。最大后验概率估计则是想求θθ使P( x 0 x_0 x0|θ)P(θ最大。求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。

MAP其实是在最大化P(θ| x 0 x_0 x0)=P( x 0 x_0 x0|θ)P(θ),不过因为 x 0 x_0 x0是确定的(即投出的“反正正正正反正正正反”),P( x 0 x_0 x0)是一个已知值,所以去掉了分母P( x 0 x_0 x0)(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则P( x 0 x_0 x0)=n/1000。总之,这是一个可以由数据集得到的值)。最大化P(θ| x 0 x_0 x0)的意义很明确, x 0 x_0 x0已经出现了,要求θ取什么值使P(θ| x 0 x_0 x0)最大。
对于投硬币的例子来看,我们认为(”先验地知道“)θ取0.5的概率很大,取其他值的概率小一些。我们用一个正态分布来具体描述我们掌握的这个先验知识,例如假设P(θ)为均值0.5,方差0.1的高斯函数,如下图:
最大似然估计(MLE)和最大后验概率估计(MAP)_第2张图片则P(| x 0 x_0 x0|θ)P(θ))的函数图像为:

最大似然估计(MLE)和最大后验概率估计(MAP)_第3张图片

注意,此时函数取最大值时,θ取值已向左偏移,不再是0.7。实际上,在θ=0.558时函数取得了最大值。即用最大后验概率估计,得到θ=0.558
最后,那要怎样才能说服一个贝叶斯派相信θ=0.7呢?你得多做点实验。
如果做了1000次实验,其中700次都是正面向上,这时似然函数为:
最大似然估计(MLE)和最大后验概率估计(MAP)_第4张图片

如果仍然假设P(θ)为均值0.5,方差0.1的高斯函数,P( x 0 x_0 x0|θ)P(θ)的函数图像为:
最大似然估计(MLE)和最大后验概率估计(MAP)_第5张图片

在θ=0.696处,P( x 0 x_0 x0|θ)P(θ)取得最大值。

这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把θ估计在0.7附近了。

四、最大似然估计和最大后验概率估计的区别
MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。

你可能感兴趣的:(MLE,MAP)