今天在论文里面看到了一个名词叫做Marginal likelihood,中文应该叫做边缘似然,记录一下相关内容。
似然也就是对likelihood较为贴近的文言文界似,用现代的中文来说就是可能性。
在数理统计学中,似然函数就是一种关于统计模型中的参数的函数,表示模型参数中的似然性。"似然性”与“概率”意思相近,都是指某种事件发生的可能性。统计学中,”似然性“和”概率“又明确的区分,概率用在已知一些参数的情况下,预测接下来观测所得到的结果,而似然性则是用于在已知的某些观测所得到的结果时,对有关事物的性质的参数进行估计。
在这种意义的基础上,似然函数可以理解为条件概率的逆反。在已知某个参数B时,事件A会发生的概率写作:
P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B) = \frac{P(A,B)}{P(B)} P(A∣B)=P(B)P(A,B)
利用贝叶斯定理,
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A) = \frac{P(A|B)P(B)}{P(A)} P(B∣A)=P(A)P(A∣B)P(B)
其中贝叶斯定理如下所示:
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum^n_{j=1}P(B_j)P(A|B_j)} P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
因此,我们可以反过来构造表示似然性的方法:已知有A事件发生,运用似然函数 L ( B ∣ A ) \mathbb{L}(B | A) L(B∣A),我们估计参数B的可能性。形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了:
b ↦ P ( A ∣ B = b ) b\mapsto P(A|B=b) b↦P(A∣B=b)
可以注意到这里并不要求似然函数满足归一性: ∑ b ∈ B P ( A ∣ B = b ) = 1 \sum_{b \in \mathcal{B}} P(A | B=b)=1 ∑b∈BP(A∣B=b)=1。一个似然函数乘以一个正的常数之后仍然是似然函数。对所有 α > 0 \alpha>0 α>0,都可以由有似然函数:
L ( b ∣ A ) = α P ( A ∣ B = b ) L(b | A)=\alpha P(A | B=b) L(b∣A)=αP(A∣B=b)
以上内容来自博客理想几岁里维基百科对于似然函数的描写,想必看完之后一头雾水。我也是,博客里还有举抛硬币的例子,例子描述得非常好,我也想举一个例子。
比如我去球场投球,记录事件A为第一球投中,记事件B为第一球投中之后第二球也投中了,假设我投中一球的概率为0.9(有点臭不要脸)。
那么我们经常说的概率就是表示已经知道了我的投篮概率这个条件,来预测事件的概率。
那么在我第一球投中的情况下,投中第二球的概率就是:
P ( B ∣ A ) = P ( A B ) P ( A ) = 0.9 × 0.9 0.9 = 0.9 P(B|A)=\frac{P(AB)}{P(A)}=\frac{0.9\times0.9}{0.9}=0.9 P(B∣A)=P(A)P(AB)=0.90.9×0.9=0.9
那么就预测出来第二球能投中的概率就是我投一球能中的概率0.9。
而似然正好与这个过程相反,是知道了发生了某些事件,然后求参数的可能性大小。
比如我连着投进了三个球,记为事件C,记每次投球的命中率为p,那么我投球命中率为0.5的概率是多少,投球命中率为0.9的概率又是多少?
假设投球命中率用D表示,命中率为0.5的情况用 d d d表示,那么有:
L ( d ∣ C ) = P ( C , d ) P ( C ) = P ( C ∣ D = d ) L(d|C)=\frac{P(C,d)}{P(C)}=P(C|D=d) L(d∣C)=P(C)P(C,d)=P(C∣D=d)
因为其中C事件已经发生,所以概率显然为0,所以可以得到最右式子。
那么我们可以计算这个值:
L ( d ∣ C ) = P ( C ∣ D = d ) = 0.5 × 0.5 × 0.5 = 0.125 L(d|C)=P(C|D=d)=0.5\times0.5\times0.5=0.125 L(d∣C)=P(C∣D=d)=0.5×0.5×0.5=0.125
也就是说投篮命中率为0.5的概率为0.125。
那么投篮命中率为0.9的似然概率可以如下计算:
L ( d = 0.9 ∣ C ) = P ( C ∣ D = 0.9 ) = 0.9 × 0.9 × 0.9 = 0.729 L(d=0.9|C)=P(C|D=0.9)=0.9\times0.9\times0.9=0.729 L(d=0.9∣C)=P(C∣D=0.9)=0.9×0.9×0.9=0.729
也就是说投篮命中率为0.9的概率为0.729。
那么最大似然概率也就好理解了,就是在已知观测数据的情况下,找到使似然概率最大的参数值。
维基百科中关于marginal likelihood的相关内容如下:
在统计学中,边缘似然函数(marginal likelihood function),或者积分似然(integrated likelihood),是一个某些参数变量边缘化的似然函数(likelihood function)。在贝叶斯统计范畴,它可以被称作为证据或者模型证据的。
给出一组独立同分布的数据点 X = ( x 1 , … , x n ) \mathbb{X}=\left(x_{1}, \ldots, x_{n}\right) X=(x1,…,xn), x i ∼ p ( x i ∣ θ ) x_{i} \sim p\left(x_{i} | \theta\right) xi∼p(xi∣θ),其中 θ \theta θ是一个通过分布描述的随机变量,即 θ ∼ p ( θ ∣ α ) \theta \sim p(\theta | \alpha) θ∼p(θ∣α),概率 p ( X ∣ α ) p(\mathbb{X}|\alpha) p(X∣α),其中 θ \theta θ是边缘分布(积分结果):
p ( X ∣ α ) = ∫ θ p ( X ∣ θ ) p ( θ ∣ α ) d θ p(\mathbb{X} | \alpha)=\int_{\theta} p(\mathbb{X} | \theta) p(\theta | \alpha) \mathrm{d} \theta p(X∣α)=∫θp(X∣θ)p(θ∣α)dθ
上述定义是在贝叶斯统计范畴给出的。在经典的(频率派)的统计学中,边缘似然这一概念产生于联合参数 θ = ( ψ , λ ) \theta=(\psi,\lambda) θ=(ψ,λ),其中 ψ \psi ψ是我们关心的实际参数, λ \lambda λ是一个不关心的冗余参数。如果 λ \lambda λ服从概率分布,那么通常可以通过边缘化 λ \lambda λ来考虑 ψ \psi ψ的似然函数:
L ( ψ ; X ) = p ( X ∣ ψ ) = ∫ λ p ( X ∣ λ , ψ ) p ( λ ∣ ψ ) \mathcal{L}(\psi ; \mathbb{X})=p(\mathbb{X} | \psi)=\int_{\lambda} p(\mathbb{X} | \lambda, \psi) p(\lambda | \psi) L(ψ;X)=p(X∣ψ)=∫λp(X∣λ,ψ)p(λ∣ψ)
不幸的是,边缘似然一般都很那计算。只有在边缘化输出参数是数据分布的共轭先验的情况下,很少的一部分分布可以得到确切解。在其他情况下,需要通过一些数值积分方法得到,无论是通用的方法如高斯求积或蒙特卡罗方法,或一种统计问题的专用方法,例如拉普拉斯方法等。
在贝叶斯的范畴内,这等价于数据点的先验预测分布。
用 θ \theta θ表示模型参数,模型M的边缘似然是
p ( x ∣ M ) = ∫ p ( x ∣ θ , M ) p ( θ ∣ M ) d θ p(x | M)=\int p(x | \theta, M) p(\theta | M) \mathrm{d} \theta p(x∣M)=∫p(x∣θ,M)p(θ∣M)dθ
后验几率=先验几率x贝叶斯因子
贝叶斯因子:
p ( M 1 ∣ x ) p ( M 2 ∣ x ) = p ( M 1 ) p ( M 2 ) p ( x ∣ M 1 ) p ( x ∣ M 2 ) \frac{p\left(M_{1} | x\right)}{p\left(M_{2} | x\right)}=\frac{p\left(M_{1}\right)}{p\left(M_{2}\right)} \frac{p\left(x | M_{1}\right)}{p\left(x | M_{2}\right)} p(M2∣x)p(M1∣x)=p(M2)p(M1)p(x∣M2)p(x∣M1)
参考文献: