先验分布,后验分布,共轭分布的关系

先考虑一下我们是如何解决一个概率问题的:

在一个实际问题中我们通常是根据经验选出一个模型,例如一个抛硬币可以抽象为伯努利分布(0-1分布)的模型,人的身高分布可以抽象为正态分布的模型,然后根据数据推算出模型的参数。

而这个选取的模型就决定了似然函数 p(X|θ) 的形式。例如抛硬币模型: f(k;n,p)=Pr(K=k)=(nk)pk(1p)nk (参数为k),身高分布模型: f(x)=1σ2πe(((xμ)22σ2)) (参数为 (μ,σ) )。

那么如何估计这些模型的参数呢?这里可以使用贝叶斯定理: P(θ|X)=P(X|θ)P(θ)P(X) p(θ|x)=p(x|θ)p(θ)p(x|θ)p(θ)dθ,

P(θ|X) (posterior),它表示已知数据分布的情况下参数的分布,

似然函数 P(X|θ) (likelihood)表示在参数为 θ 的情况下数据X的分布,

P(θ) (prior)表示在没看到数据X的情况下的对参数分布的估计,

其实先验分布 P(θ) 可以随便选择,只不过在计算 p(x|θ)p(θ)dθ 可能会导致后验分布没有解析式,所以通常都是在保证先验分布合理的情况下选择可以让后验分布有close form的prior。

例如抛硬币模型中likelihood是0-1分布,所以可以选择prior为均匀分布(Beta(1, 1)的特殊形式),此时posterior为 Beta(1+Σxi,1+nΣxi) ,所以可以直接解出后验的close form。

ps:Beta分布可以理解为先验分布为均匀分布时,加入数据x后的0-1分布参数的后验分布。

身高模型中,我们的模型,也就是likelihood,为正态分布,
有已知 μ σ 或两者都不知道三种情况的情形。如果先验分布是正态分布的话,后验分布也是正态分布。具体参数可参考

所以以上我们就知道了什么是prior和posterior,以及应该选取什么样的prior,这时如果prior和posterior同一分布的不同参数形式的话,那么prior和posterior叫做共轭分布,prior叫做似然函数的共轭先验。

你可能感兴趣的:(机器学习)