MLE和MAP

在概率论里面存在两个流派也就是频率学派和贝叶斯学派,在看来关于这方面的讲解之后吗,个人的理解是对于同一事件的不同理解。


频率学派和贝叶斯学派最大的差别是对于参数空间的认识上。所谓参数空间,就是你关心的那个参数可能的取值范围。

频率学派并不关心参数空间的所有细节,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。

贝叶斯学派恰恰相反,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。

最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

不同的想法则引出了两种方法:最大似然估计(MLE)和最大后验概率估计(MAP)。

最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法。最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。也就是已经拥有了一堆数据,它是从某种分布中随机拿出来的,现在需要确定该数据是何种分布以及何种参数下,产生出这样的数据概率最大。

MLE和MAP_第1张图片

频率学派求硬币概率的例子,其方法其实本质是由优化NLL得出。本文末尾附录中给出了具体的原因 :


最大后验概率估计用来估计一个概率模型的参数的一种方法,也就是已有一堆数据,但是和MLE相比多了先验概率,然后根据数据求得最大后验概率。

MLE和MAP_第2张图片

MLE和MAP_第3张图片

具体涉及的公式来源于夏飞-知乎,具体的地址:https://zhuanlan.zhihu.com/p/32480810




你可能感兴趣的:(MAP,MLE,机器学习)