机器学习面试必知:MLE最大似然估计与MAP最大后验概率

MLE
模型已定,参数未知,MLE的目标就是找出一组参数,使得模型产生出的观测数据的概率最大 a r g   m a x u   p ( X ; u ) arg\ \underset{u}{max}\ p(X;u) arg umax p(X;u)
假设抛十次硬币TTTHTTTHTT(H正,T反)假设正面朝上的概率是 u u u
p ( x ; u ) = ∏ i p ( x i ; u ) = ∏ i = 1 n u x i ( 1 − u ) x i p(x;u)=\prod_{i}p(x_{i};u)=\prod_{i=1}^{n}u^{x_{i}}(1-u)^{x_{i}} p(x;u)=ip(xi;u)=i=1nuxi(1u)xi u u u求导等于零可以得到 u ^ M L = 1 n ∑ i n x i \hat{u}_{ML}=\frac{1}{n}\sum_{i}^{n} x_{i} u^ML=n1inxi可以看到MLE方法只与观测样本有关,观察十次按照MLE方法得到的 u u u明显不符合实际。可以想象得到如果观测样本不足(欠拟合)或者太多(过拟合)。

MAP
为了解决MLE存在的问题,我们利用贝叶斯定理给 u u u的估计加上一个先验概率限制,这个先验概率由经验给出或者由总结出来的知识得到。MAP优化的是一个后验概率 a r g   m a x u   p ( u ∣ x ) = a r g   m a x u   p ( x ∣ u ) p ( u ) p ( x ) ∝ a r g   m a x u   p ( x ∣ u ) p ( u ) arg\ \underset{u}{max}\ p(u|x)=arg\ \underset{u}{max}\ \frac{p(x|u)p(u)}{p(x)}\propto arg\ \underset{u}{max}\ p(x|u)p(u) arg umax p(ux)=arg umax p(x)p(xu)p(u)arg umax p(xu)p(u) p ( x ∣ u ) p(x|u) p(xu)是似然函数, p ( u ) p(u) p(u)是先验知识。取对数后可以得到 a r g   m a x u   l n ∏ i = 1 n p ( x i ∣ u ) + l n p ( u ) arg\ \underset{u}{max}\ \mathrm{ln}\prod_{i=1}^{n}p(x_{i}|u)+\mathrm{ln}p(u) arg umax lni=1np(xiu)+lnp(u)其中 l n ∏ i = 1 n p ( x i ∣ u ) = ∑ i = 1 n l n   [ u x i ( 1 − u ) x i ] \mathrm{ln}\prod_{i=1}^{n}p(x_{i}|u)=\sum_{i=1}^{n}\mathrm{ln}\ [u^{x_{i}}(1-u)^{x_{i}}] lni=1np(xiu)=i=1nln [uxi(1u)xi]对于给定的概率分布 p ( x ∣ u ) p(x|u) p(xu),我们能找到一个先验分布使与其似然函数共轭,从而后验分布的函数形式与先验分布相同。伯努利分布中共轭先验是Beta分布。 p ( u ) = B e t a ( u ∣ α , β ) = 1 B ( α , β ) u α − 1 ( 1 − u ) β − 1 p(u)=Beta(u|\alpha,\beta)=\frac{1}{B(\alpha,\beta)}u^{\alpha-1}(1-u)^{\beta-1} p(u)=Beta(uα,β)=B(α,β)1uα1(1u)β1对其求导数等于零最后能求得 u ^ M A P = n H + α − 1 n + α + β − 2 \hat{u}_{MAP}=\frac{n_{H}+\alpha-1}{n+\alpha+\beta-2} u^MAP=n+α+β2nH+α1 n H n_{H} nH表示正面朝上的硬币数,n是总的观察次数。

你可能感兴趣的:(机器学习,面试,统计学习)