以下内容都是基于Christopher P. Randle教授在研究组上交流时的课件整理而来。
最大似然法选择的最优树是使得观察到的性状分布(character state distribution)出现的概率最大的树。
最重要的是理解似然值(likelihood)。
What is Likelihood? 什么是似然值?
The likelihood of a hypothesis is the proportion to the probability that it is true. Meaning, the likelihood of hypothesishis the probability of observing data given hypothesis h.
尝试翻译一下,就是给出一个假设h,该假设的似然值L(h)就是:在此假设是真实条件下,发生事件d的概率p(d/h)。
举个简单的例子:
分子实验室里有两个好朋友Ron和Anthony要抛硬币决定谁去干活。Anthony从口袋里掏出一枚硬币,但是Ron一直怀疑Anthony的人品,因为Anthony经常放一枚假硬币(假硬币正面朝上的概率为90%,真硬币为50%)在口袋里。为了区分真假硬币,两个人没有去找如来佛祖,而是开始炫统计学。
此时有两个相互对立的假设(competing hypotheses):
假设1:硬币是真的
假设2:硬币是假的
而最大似然值方法就是用来帮助评估这两个两个相互对立的假设谁更可能是真的。
在计算这两个相互对立的假设的似然值之前,我们先来说下二项分布(binomial distribution)。
在生活中,我们经常会碰到两个对立的事件,比如现在的硬币是真是假。二者非此即彼,概率相加为1。
现在还是以抛硬币为例,结果只有两种:正面朝上和反面朝上。抛硬币是个独立(每次抛硬币事件之间不会相互影响)可重复事件。假设正面朝上的概率为p,抛n次硬币,正面朝上出现x次的概率为:
然后两人开始抛硬币,抛了4次,有3次是正面朝上。
在假设1硬币是真的条件下,正面朝上的概率p=50%,此时
假设2硬币是假的条件下,p=90%,此时
0.25和0.29好像相差不大啊,于是两人继续抛了4次,都是正面朝上,现在n=8,x=7,同上面的计算方式得到:L(h1)=0.03125,L(h2)=0.38264
假设2硬币是假的似然值就比假设1大多了。统计学告诉我们这枚硬币大概率是假的。
Phylogeny and Likelihood 系统发育和似然值
The likelihood of a phylogeny is the probability a character state distribution (the data) given that phylogeny. The tree hypothesis (topology+ branch lengths) that maximizes the probability of having observed data, is the tree of maximum likelihood, and is to be preferred over less "likely" hypotheses.
简单翻译一下,就是根据现有的性状数据,存在千千万的系统发育树假设。对给定的系统发育树,计算在它是真实的这一假设下,使得现有性状分布出现的概率,也就是该树的似然值。似然值最大的那棵系统发育树(已给定拓扑结构和分支长度信息)就是最大似然树,我们更倾向于选择它。用公式表示如下:
那么如何估算系统发育树的似然值呢(estimating the likelihood of a topology)?
再来举一个简单的例子:
有4个taxa:1、2、3、4,它们的一段DNA序列信息可以看作一套性状J(a set of character J),由在每个位点上的碱基(性状1、2、3··j··n)组成。
对某一个位点j,我们假设它演化的拓扑结构topology1如上图右边所展示。
最大似然法和最大简约法的不同就在于它考虑了所有的情况。在最大简约法里,给出右面的topology,我们的直觉就是taxon1和taxon2上面的node应该是碱基C,这是最简单的一种解释,而最大似然法会把所有的情况考虑进去 。两个未知的形状状态(character state),即node上的碱基,都有四种可能,即A、C、T、G四种碱基,所以可能情况的总和是4的二次方,共16种可能性,对这16种可能性我们都要进行估计。
The likelihood of topology 1 given character j is the sum of the probabilities of all state optimizations for two nodes.
对j性状来说,给定的topology1这一拓扑结构的似然值就是两个节点上16种碱基分布概率的加和。
值得注意的是,topology1是只是所有可能的topologies的一种假设。 除了topology1,还有其他可能的topologies,比如taxon1和taxon2是独立演化出C。
The likelihood of the tree for all characters in set J, then will be the product of the likelihoods estimated for each character in set J, or the joint probability。
如果系统发育树把J这套性状中的所有性状都考虑进去了(也就是这一段DNA序列所有碱基位点),那么该树的似然值就是所有性状估算的似然值的的乘积。
每个树的似然值都很小,因此我们一般用自然对数(ln值)表示
The computational difficulty of estimating the likelihood for any one character on any one tree will grow exponentially with an increase in the number of taxa(n).
通过上一节我们知道,随着分类群的增加,可能的拓扑结构数量会呈指数式增长,这就造成了计算上的困难。
幸运的是,Felsenstein(1981)想出了pruning这个方法。这个方法的具体的原理不清楚。放一段英文原文:
Simply, the method calculates likelihoods of nodes individually under all state optimizations starting at the nodes near the tips and working toward internal nodes. Rather than estimating the likelihood of an entire tree given a set of state optimizations, the pruning algorithm avoids repeating the calculations of any state optimizations for any node by rearranging the terms in the estimate, so that calculation occurs one node at a time.
尝试翻译一下:这个方法单个计算每个节点的似然值,从末端节点开始,向内进行,而不是估算整个树的似然值,这样就避免了在一个节点上的重复计算,每个节点只估算一次。
What is a model? 什么是模型?
到目前为止,我们还没说到系统发育树是怎样包含观察到的性状分布概率的相关信息的,我们需要用模型来清楚地展示性状状态的发生过程。
Tree imply nothing regarding probability of state change. A process model of evolution is required to assess the likelihood of a tree.
怎么把一系列性状、系统发育树与概率联系起来呢(how the probability of a set of characters is estimated for a given phylogeny and model)?我们就需要模型(model)。
A model is simply a hypothesis that has been formulated statistically so that the predictions of that model can take the form of some probability distribution. The essential aspects of a model are called parameters. These govern how the prediction of the model are allowed to vary.
模型就是用数学公式来表示的一个假设,模型的预测就会以概率分布的形式呈现出来。模型最关键的是它的参数,参数决定了模型如何做出预测。
我们在这里举一个简单的建立模型的例子:
还是刚才的抛硬币问题,Ron掏出一枚硬币,我们给出一个假设:这是一枚真硬币,这时用参数:正面朝上的概率p就可以表示这个假设。在“这是一枚真硬币”假设前提下下,参数p的值是50%。
这是一个简单的假设模型,一个参数就可以搞定。但是当情况复杂时需要多个参数。