极大似然估计(MLE)和最大后验估计(MAP)

1.极大似然估计

给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已知,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。 极大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数。MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大

即:


MLE的具体算法由概率论的知识可以解决,此处略去。


2.最大后验概率

MLE找的是一组能够使似然函数最大的参数,而MAP给参数施加了一个先验(例如在抛硬币的时候,我们认为出现正面的概率应该接近0.5)。

MAP试图优化下式:


两个方法之间的关系可以由贝叶斯公式导出:

极大似然估计(MLE)和最大后验估计(MAP)_第1张图片

当参数的后验P(theta)服从均匀分布的时候,MLE=MAP。MAP可以看做是正则化后的MLE。

MLE(频率学派)认为参数theta是一个未知的常量,需要从数据中估计出来。

MAP(贝叶斯学派)认为参数theta是一个随机变量,服从一个概率分布

MLE的缺点是如果数据集太小会出现过拟合。

MAP的缺点是使用不同的先验会得到不同的结果。



你可能感兴趣的:(统计机器学习)