文章转载于
(1)距离法
对于UPGMA树现在已经很少见了,我只有在处理SSR数据的时候分析过一次,ME的方法不适用于物种数目较多的时候,计算时间较长。因此在这里以邻接法,NJ(Neighbor-Joining)为代表进行介绍,
邻接法由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发育树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得到一棵树。其缺点主要表现在将序列上的所有位点同等对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。
(2)最大简约法,MP(Maximum parsimony)
最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度。MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。
与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。
(3)最大似然法,ML(Maximum likelihood)
20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。
最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。ML法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,ML法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。
(4)贝叶斯推断法(Bayesian)
近年来发展起来的一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法,它既保留了最大似然法的基本原理,又引进了马尔科夫链的蒙特卡洛方法(markov chain monte carlo process),来模拟演化树的较晚期可能性分布,并使计算时间大大缩短。贝叶斯法根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posterior probability)估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。该方法不仅可以对模型的参数进行直接量化,而且可以分析很大的数据集,因其以后验概率来表示各分支的可信性而不需用自引导法(bootstrap)进行检验。贝叶斯法的优点在于:推导系统树、评估系统树的不确定性、检测选择作用、比较系统树、参考化石记录计算分歧时间和检测分子钟。贝叶斯法得到的系统进化树不需要利用自引导法进行检验,其后验概率直观地反映了系统进化树的可信程度,是一种系统进化分析的好方法,它既能根据分子进化的现有理论和各种模型用概率重建系统进化关系,又克服了最大似然法计算速度慢、不适用于大数据集样本的缺陷。贝叶斯法可以选择适当的模型来拟合数据,它和最大似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。但二者基本的不同在于,最大似然法是以观察数据的最大概率来拟合系统树,贝叶斯法是通过系统树对数据及进化模型的最大拟合概率而得到系统树;最大似然法给出的是数据的概率,而贝叶斯法给出的是模型的概率;最大似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然的系统树集合。另外,通过贝叶斯法分析得到的结果很容易解释,系统树分支上的数值就表明了该分支的概率,而且通过贝叶斯法,我们可以利用复杂的碱基替代模型快速而有效地分析大的数据。
小结
常用构树方法的比较甄选从上述我们可以了解到,重建系统发生树的方法有很多,也各有优缺点。因此在实际操作中,往往需要根据自己的研究需要联合使用不同的构树方法以获得最佳分析结果。比较以上几种主要的构树方法,一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。对于相似度很低的序列,邻接法往往出现长枝吸引(branch attraction)现象,有时严重干扰进化树的构建。对于各种方法重建进化树的准确性,Hall (2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。邻接法和最大似然法是需要选择模型的。蛋白质序列和DNA序列的模型选择是不同的。蛋白质序列的构树模型一般选择Poissoncorrection(泊松修正),而核酸序列的构树模型一般选择Kimura2-parameter (Kimura一2参数)。如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。参数的设置推荐使用缺省的参数。在重建进化树过程中,均需选择bootstrap进行树的检验。一般bootstrap的值>70,则认为重建的进化树较为可靠。如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。通常情况下,只要选择了合适的方法和模型,构出的树均是有意义的,研究者可根据自己研究的需要选择最佳的树进行分析。
建树基本步骤
(1)数据准备
目前,构建生命之树常用的数据包括形态数据和分子数据。形态数据主要通过对形态性状编码来获取;分子数据主要通过公共数据库GeBank下载或实验获取。选择合适的DNA片段对系统发育关系重建至关重要。如果所选基因的进化速率太慢,提供的系统发育信息不足, 系统发育关系可能得不到很好的解决;如果所选基因的进化速率太快,正确的系统发育信息常常会被大量的非同源相似信号淹没。
(2)序列拼接
为了提高序列的准确性, 往往需要对所测正反向序列进行拼接和校正, 常用的拼接软件有Contig Express、Geneious (created by Biomatters, available at http://www.geneious.com)、Sequencher等。
(3)序列比对
为了保证序列的同源性和所得系统发育关系的可靠性,需要对原始序列进行比对和校正。自动比对序列的软件包括Clustal 、MAFFT、MUSCLE等; 手工校对序列的软件有BioEdit 、Se-Al 、Geneious (http://www.geneious.com)等。
(4)校正有争议的位点
保守区选择是系统发育分析过程中一个重要的步骤,对于信息位点足够多的建树序列,该步骤更是必不可少。常用的软件为Gblock。
(5)模型选择
在建树之前,通常要对矩阵的最佳模型进行评估。常用的软件有ModelTest 、MrModelTest、jModelTest等。ModelTest包含56种DNA替代模型,MrModelTest包含24种MrBayes中可用的模型, 而jModelTest包含88种模型。熟悉各建树模型的优点与不足,根据数据特点有针对性地利用不同的模型,可以减少建树过程中出现的偏差。
(6)选择建树方法
当前最常用的建树方法有距离法、最大简约法(Maximum Parsimony, MP)、最大似然法(Maximum Likelihood, ML)和贝叶斯法(Bayesian Inference, BI) (Hall, 2008)。MP法认为进化历程中发生碱基替代次数最少的系统发育树为最优树,常用的分析软件为PAUP*软件包。MP法由于不能对长枝的平行突变作出校正, 可能会得到错误的拓扑结构。ML法基于碱基替代模型,认为似然值最大的系统发育树为最优树, 常用的分析软件有GARLI、PHYML、RAxML 等,目前应用较多的RAxML软件运算速度快、操作简单, 使大矩阵建树成为可能。BI法采用与ML法一致的评分标准, 但并不直接选取似然值最大的树,而是在马尔可夫链(Monte Carlo MarkoChain, MCMC)中取样,选取出现频率最高的系统发育树为最优树,常用的软件为MrBayes。BI法通过后验概率(posterior probability, PP)来评估拓扑结构的可靠性,一般PP > 95%的分支可信度较高。相对于其他方法,BI法所得的多数一致树被认为更能真实反映类群间的系统关系。
(7)树的显示与美化
常用的编辑和显示树图的软件有TreeView、FigTree、MEGA、ITOL(http://itol.embl.de/)、R包(ggtree、APE)等。
下期将分享一个系统发育树构建的实例!
参考文献:
Hall B G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences[J]. Molecular Biology and Evolution, 2004, 22(3): 792-802.
鲁丽敏,陈之端,路安民. 系统生物学家最终能得到完全一致的生命之树吗?[J]. 科学通报,2016,(09):958-963.
鲁丽敏,孙苗,张景博,李洪雷,林立,杨拓,陈闽,陈之端. 生命之树及其应用[J]. 生物多样性,2014,(01):3-20.