PAML学习手册(1)

最近工作中经常会用到PAML,发现很多东西不是很明白,所以从官方网站上找到了PAML手册(http://abacus.gene.ucl.ac.uk/software/pamlDOC.pdf)开始学习,边学边翻译一下,以便后续使用。

PAML学习手册

1. 概述

PAML是一个使用最大似然法对DNA和蛋白序列进行系统发育分析的软件包。目前包括baseml,basemlg,codeml,evolver,pamp,yn00,mcmctree和chi2。PAML可用来进行如下分析:

       系统发育树的比较和检验(baseml和codeml);

       复杂替代模型中的参数估计,包括位点间变化率的模型和多基因或多位点综合分析的模型(baseml和codeml);

       应用模型比较的似然性检验(baseml,codeml和chi2);

       在global clock模型和local clock模型下估计分歧时间(baseml和codeml);

       使用核苷酸、氨基酸和密码子模型重构祖先序列(Empirical Bayes)(baseml和codeml);

       通过蒙特卡洛模拟生成核苷酸、密码子和氨基酸序列数据集(evolver);

       同义突变率和非同义突变率估计、发现蛋白编码序列中的正选择位点(yn00和codeml);

       化石校准中包含不确定的物种分歧时间的贝叶斯估计(mcmctree)。

各个软件介绍:

baseml和codeml:baseml用来对核苷酸序列进行最大似然分析。codeml由两个旧版程序合并而成:执行密码子替代模型的codonml和执行氨基酸替代模型的aaml。此两种程序现在由seqtype参数区分:1代表密码子序列、2代表氨基酸序列。baseml、codonml和aaml使用的算法类似,主要区别在于马尔可夫模型中的一个进化单位,也就是序列中的一个位点,是一个核苷酸、一个密码子还是一个氨基酸。

evolver:evolver用来模拟核苷酸、密码子和氨基酸替代模型下的序列,也可以用来产生随机树和计算树与树之间的partition distances。

basemlg:此程序实现了Yang(1993)的连续伽马模型。对于超过6或7个物种的数据非常缓慢且不可实现,这种情况应该使用baseml中的离散伽马模型。

mcmctree:使用贝叶斯MCMC算法估计物种分歧时间。

pamp:执行基于简约法的分析。

yn00:估计成对蛋白编码序列的同义替换率和非同义替换率。

chi2:计算进行似然比检验的χ2临界值和p值。直接运行程序chi2,程序将打印出不同df的临界值(例如d.f. = 1时的5%临界值为3.84)。如果使用命令行参数运行程序,程序将进入一个循环,要求输入d.f.和统计数据,然后计算p值。运行程序的第三种方法是将d.f.和统计数据都包含在命令行参数中。

PAML不能做什么

序列比对

基因预测

构建系统发育树

你可能感兴趣的:(PAML学习手册(1))