Maximum likelihood和Bayesian inference是目前谱系分析(phylogenetic analyses)常用的两种方法。但是由于两者使用的观念或多或少都牵涉到机率与统计的范畴,应用这两种方法的人常常会把两者相互混淆。
虽然一般教学上都会提到,Maximum likelihood用的是统计方法计算谱系树的likelihood,搜寻最佳谱系树;Bayesian inference则是应用Bayes’ theorem来计算谱系树为真的机率(probability)。但是机率和统计其实只是使用不同的角度探讨同一件事而已——甚至在一般英文的定义中,likelihood和probability还是同义字:
Likelihood as a solitary term is a shorthand for likelihood function. In non-technical usage, "likelihood" is a synonym for "probability", but throughout this article only the technical definition is used. Informally, if "probability" allows us to predict unknown outcomes based on known parameters, then "likelihood" allows us to determine unknown parameters based on known outcomes.
(节录Wikipedia对likelihood function的定义http://en.wikipedia.org/wiki/Likelihood_function)
Likelihood is the hypothetical probability that an event that has already occurred would yield a specific outcome. The concept differs from that of a probability in that a probability refers to the occurrence of future events, while a likelihood refers to past events with known outcomes.
(from http://mathworld.wolfram.com/Likelihood.html)
所以事实上,如果要简单的区分likelihood和probability,只要看这个方法是用什么去求什么就可以了:
Likelihood:用已知的(实验)数据作出(影响实验结果的)参数的函数,藉以求取参数的数值。
Probability:用已知的(影响实验结果的)参数作出(能够预测实验结果的)函数,藉以预测实验的结果。
若从「参数←→函数曲线」的角度看,我们可以藉由函数图形的性质差异来区分这两者。
如果我们用已知参数作机率分布曲线,那么这个曲线和X轴(参数)所包含的面积不会因为这个参数的变换而改变。
例如:
f(x): exponential with mean = 1,令y = 1/x,得f(y): inverse gamma
但是如果我们用已知参数作最大似然曲线,这时参数的变换将不会改变函数的值,也就是曲线到X轴的距离不会改变。
例如:
l(p;x) = 10log(p) +90log(1-p),令a = p^2,得l(a;x) = 10log(√a) +90log(1-√a)
在p = 0.1和a = 0.01时,l(log likelihood)值相等
为什么会有这样的差异?其实只要看到这两个例子,就能知道原因了。
以Bayesian inference所观察的后验机率(posterior probability)来看,它其实是机率分布函数对参数变量所作的积分。从函数图形的角度看,这就是图形所包含的面积。而Maximum likelihood观察的则是函数的log likelihood,以参数变量对log likelihood所作的最大似然曲线,图形面积并没有意义。
因此虽然在逻辑上,likelihood和probability关注的是同样的东西,可是在操作上使用的角度不同,得出的结果也不会一样。
注:这篇文章是去年年底(嗯,也才上个月嘛),杨子恒老师的计算演化研习课程中提到的一小部份。虽然他的讲义中有函数图形,不过考虑版权问题某猿没办法放上来,网络上暂时也找不到适合解释的图。
他在前年出版的<Computational Molecular Evolution>中有专门的章节讨论Maximum likelihood和Bayesian inference。这里纯粹就最基本的原理去讨论两者间的差异性。如果真要分析两者的不同,其实还有很多细节(例如本文中所提到的函数,两者的定义其实会有一点差别)可以讨论,不过这不是这篇文章的重点。