Marginal Likelihood 边缘似然

Marginal Likelihood 边缘似然

今天在论文里面看到了一个名词叫做Marginal likelihood,中文应该叫做边缘似然,记录一下相关内容。

似然

似然也就是对likelihood较为贴近的文言文界似,用现代的中文来说就是可能性。

似然函数

在数理统计学中,似然函数就是一种关于统计模型中的参数的函数,表示模型参数中的似然性。"似然性”与“概率”意思相近,都是指某种事件发生的可能性。统计学中,”似然性“和”概率“又明确的区分,概率用在已知一些参数的情况下,预测接下来观测所得到的结果,而似然性则是用于在已知的某些观测所得到的结果时,对有关事物的性质的参数进行估计。
在这种意义的基础上,似然函数可以理解为条件概率的逆反。在已知某个参数B时,事件A会发生的概率写作:
P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B) = \frac{P(A,B)}{P(B)} P(AB)=P(B)P(A,B)
利用贝叶斯定理,
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A) = \frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)
其中贝叶斯定理如下所示:
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum^n_{j=1}P(B_j)P(A|B_j)} P(BiA)=j=1nP(Bj)P(ABj)P(Bi)P(ABi)
因此,我们可以反过来构造表示似然性的方法:已知有A事件发生,运用似然函数 L ( B ∣ A ) \mathbb{L}(B | A) L(BA),我们估计参数B的可能性。形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了:
b ↦ P ( A ∣ B = b ) b\mapsto P(A|B=b) bP(AB=b)
可以注意到这里并不要求似然函数满足归一性: ∑ b ∈ B P ( A ∣ B = b ) = 1 \sum_{b \in \mathcal{B}} P(A | B=b)=1 bBP(AB=b)=1。一个似然函数乘以一个正的常数之后仍然是似然函数。对所有 α > 0 \alpha>0 α>0,都可以由有似然函数:
L ( b ∣ A ) = α P ( A ∣ B = b ) L(b | A)=\alpha P(A | B=b) L(bA)=αP(AB=b)

以上内容来自博客理想几岁里维基百科对于似然函数的描写,想必看完之后一头雾水。我也是,博客里还有举抛硬币的例子,例子描述得非常好,我也想举一个例子。

比如我去球场投球,记录事件A为第一球投中,记事件B为第一球投中之后第二球也投中了,假设我投中一球的概率为0.9(有点臭不要脸)。
那么我们经常说的概率就是表示已经知道了我的投篮概率这个条件,来预测事件的概率。
那么在我第一球投中的情况下,投中第二球的概率就是:
P ( B ∣ A ) = P ( A B ) P ( A ) = 0.9 × 0.9 0.9 = 0.9 P(B|A)=\frac{P(AB)}{P(A)}=\frac{0.9\times0.9}{0.9}=0.9 P(BA)=P(A)P(AB)=0.90.9×0.9=0.9
那么就预测出来第二球能投中的概率就是我投一球能中的概率0.9。
似然正好与这个过程相反,是知道了发生了某些事件,然后求参数的可能性大小。
比如我连着投进了三个球,记为事件C,记每次投球的命中率为p,那么我投球命中率为0.5的概率是多少,投球命中率为0.9的概率又是多少?
假设投球命中率用D表示,命中率为0.5的情况用 d d d表示,那么有:
L ( d ∣ C ) = P ( C , d ) P ( C ) = P ( C ∣ D = d ) L(d|C)=\frac{P(C,d)}{P(C)}=P(C|D=d) L(dC)=P(C)P(C,d)=P(CD=d)
因为其中C事件已经发生,所以概率显然为0,所以可以得到最右式子。
那么我们可以计算这个值:
L ( d ∣ C ) = P ( C ∣ D = d ) = 0.5 × 0.5 × 0.5 = 0.125 L(d|C)=P(C|D=d)=0.5\times0.5\times0.5=0.125 L(dC)=P(CD=d)=0.5×0.5×0.5=0.125
也就是说投篮命中率为0.5的概率为0.125。
那么投篮命中率为0.9的似然概率可以如下计算:
L ( d = 0.9 ∣ C ) = P ( C ∣ D = 0.9 ) = 0.9 × 0.9 × 0.9 = 0.729 L(d=0.9|C)=P(C|D=0.9)=0.9\times0.9\times0.9=0.729 L(d=0.9C)=P(CD=0.9)=0.9×0.9×0.9=0.729
也就是说投篮命中率为0.9的概率为0.729。
那么最大似然概率也就好理解了,就是在已知观测数据的情况下,找到使似然概率最大的参数值。

边缘似然

维基百科中关于marginal likelihood的相关内容如下:
在统计学中,边缘似然函数(marginal likelihood function),或者积分似然(integrated likelihood),是一个某些参数变量边缘化的似然函数(likelihood function)。在贝叶斯统计范畴,它可以被称作为证据或者模型证据的。

边缘似然的概念

给出一组独立同分布的数据点 X = ( x 1 , … , x n ) \mathbb{X}=\left(x_{1}, \ldots, x_{n}\right) X=(x1,,xn) x i ∼ p ( x i ∣ θ ) x_{i} \sim p\left(x_{i} | \theta\right) xip(xiθ),其中 θ \theta θ是一个通过分布描述的随机变量,即 θ ∼ p ( θ ∣ α ) \theta \sim p(\theta | \alpha) θp(θα),概率 p ( X ∣ α ) p(\mathbb{X}|\alpha) p(Xα),其中 θ \theta θ是边缘分布(积分结果):
p ( X ∣ α ) = ∫ θ p ( X ∣ θ ) p ( θ ∣ α ) d θ p(\mathbb{X} | \alpha)=\int_{\theta} p(\mathbb{X} | \theta) p(\theta | \alpha) \mathrm{d} \theta p(Xα)=θp(Xθ)p(θα)dθ
上述定义是在贝叶斯统计范畴给出的。在经典的(频率派)的统计学中,边缘似然这一概念产生于联合参数 θ = ( ψ , λ ) \theta=(\psi,\lambda) θ=(ψ,λ),其中 ψ \psi ψ是我们关心的实际参数, λ \lambda λ是一个不关心的冗余参数。如果 λ \lambda λ服从概率分布,那么通常可以通过边缘化 λ \lambda λ来考虑 ψ \psi ψ的似然函数:
L ( ψ ; X ) = p ( X ∣ ψ ) = ∫ λ p ( X ∣ λ , ψ ) p ( λ ∣ ψ ) \mathcal{L}(\psi ; \mathbb{X})=p(\mathbb{X} | \psi)=\int_{\lambda} p(\mathbb{X} | \lambda, \psi) p(\lambda | \psi) L(ψ;X)=p(Xψ)=λp(Xλ,ψ)p(λψ)
不幸的是,边缘似然一般都很那计算。只有在边缘化输出参数是数据分布的共轭先验的情况下,很少的一部分分布可以得到确切解。在其他情况下,需要通过一些数值积分方法得到,无论是通用的方法如高斯求积蒙特卡罗方法,或一种统计问题的专用方法,例如拉普拉斯方法等。
在贝叶斯的范畴内,这等价于数据点的先验预测分布。

应用

贝叶斯模型比较

θ \theta θ表示模型参数,模型M的边缘似然是
p ( x ∣ M ) = ∫ p ( x ∣ θ , M ) p ( θ ∣ M ) d θ p(x | M)=\int p(x | \theta, M) p(\theta | M) \mathrm{d} \theta p(xM)=p(xθ,M)p(θM)dθ
后验几率=先验几率x贝叶斯因子
贝叶斯因子:
p ( M 1 ∣ x ) p ( M 2 ∣ x ) = p ( M 1 ) p ( M 2 ) p ( x ∣ M 1 ) p ( x ∣ M 2 ) \frac{p\left(M_{1} | x\right)}{p\left(M_{2} | x\right)}=\frac{p\left(M_{1}\right)}{p\left(M_{2}\right)} \frac{p\left(x | M_{1}\right)}{p\left(x | M_{2}\right)} p(M2x)p(M1x)=p(M2)p(M1)p(xM2)p(xM1)

参考文献:

  1. 博客 理想几岁:https://www.cnblogs.com/zongfa/p/9295455.html
  2. 维基百科:https://zh.m.wikipedia.org/wiki/%E8%BE%B9%E7%BC%98%E4%BC%BC%E7%84%B6

你可能感兴趣的:(机器学习,机器学习,概率论)