机器学习(三):如何理解最大似然估计MLE与最大后验估计MAP

一、问题

在机器学习中,总是会提到最大似然估计MLE(Maximum Likelihood Estimation)与最大后验估计MAP(Maximum A Posteririo),我总是不明白其中的差别,我们求解问题不就是使用贝叶斯公式求解最大后验估计吗?这个和最大似然估计有啥关系啊?

二、分析

最大似然估计:

\hat{\Theta }_{MLE} = argmaxP(X; y) = argmaxP(x_{1}; y_{1})P(x_{2}; y_{2}})...P(x_{n}; y_{n}) = argmaxlog\prod P(x_{i}; y_{i}) = argmax\sum logP(x_{i}; y_{i}) = -argmin\sum logP(x_{i}; y_{i})

贝叶斯公式:

P(X|y) = \frac{P(X)P(y|X)}{P(y)}

最大后验估计:

\hat{\Theta }_{MAP}argmax = argmaxP(y|X) = argmax\frac{P(X|y)P(y)}{P(X)} = argmin logP(x) - logP(X|y) - logP(y) =argminlogP(X)-logP(X|y)

可以得到最大后验估计比最大似然估计多了一项logP(x),其中最大后验估计中,直接丢掉了logP(y),因为我们要求解的变量是x,所以与x无关的项可省去。

我们看最大似然估计的现实意义:根据现在有的X与y,X相当于实验次数,y相当于实验结果,通过求解似然函数,得到的是预测根据之前的实验,当新实验发生时,\hat{y}发生的概率。

我们看最贝叶斯公式的现实意义:在似然求解中,加入了P(X)/P(y), 相当于增加了一个调整因子,根据实验次数的增加,后验P(X|y)的值不断调整。

总结来说:最大后验估计在最大似然估计的基础上增加了一个调整因子,根据@夏飞(某知乎博主)所述,极大似然估计代表频率学派,表示认为世界是固定的,我们通过不断的实验,会最终接近那个真实确定值。最大后验估计认为,我们判断世界的时候,已经添加了我们的先验知识,我们先有了一个判断,然后通过不断的实验,不断调整我们的判断,我们的世界是不断变化的。

三、举例分析

当x服从正态分布时,X\rightarrow N(\mu ,\sigma ),我们分别求解MLE与MAP的差异时,得到

最大似然估计加上一个L2正则项,就等于最大后验估计,这也就解释了为什么在线性回归中使用最大似然估计后,要加正则项的原因。

 

 

 

参考:

https://zhuanlan.zhihu.com/p/32480810

https://www.zhihu.com/search?type=content&q=%E5%A6%82%E4%BD%95%E7%90%86%E8%A7%A3%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%85%AC%E5%BC%8F

你可能感兴趣的:(林小白人工智能入门笔记)