MEGA构建进化树

如何用MEGA-X构建进化树_生物研究_实用技巧_科研星球 (51xxziyuan.com)原文链接

通过进化树，我们可以得到一些非常有价值的信息，比如说某几个物种在同一分支上，说明他们有着较近的亲缘关系，更有可能他们之间存在着祖先与进化的关系。比如最近来势汹汹的新冠肺炎，下图为从网上找的冠状病毒遗传进化分析，其中图中2019-nCoV即为本次新型冠状病毒。

今天我们就来简单介绍一下进化树构建的基本过程。这次我们以YTHDF家族和YTHDC家族作为例子来进行演示。

PART1

准备

1. 基因蛋白序列

打开NCBI gene数据库（https://www.ncbi.nlm.nih.gov/gene/），将所要查询的基因名称输进去即可，例如分析人YTH家族，将该家族的5个基因（YTHDF1/2/3、YTHDC1/2）依次输进基因栏。

选择对应物种，例如此处分析人，选择Homo sapiens，

选择要分析的序列，本文分析蛋白序列，点击NP链接，若要分析mRNA序列，点NM即可。

转进来后点击FASTA后即可看到该基因的蛋白序列，通过右上方send to发送至本地保存为fasta格式。

然后将5个基因蛋白序列合在一个fasta格式文件。具体合并就是把文件用文本打开，然后粘贴到一起就行。注意：所有序列的方向都要保持一致 ( 5’-3’)。序列工作就做好啦

另：Uniprot数据库（http://www.uniprot.org/）也可获取蛋白序列哦，步骤与此类似，自行探索即可

2.下载MEGA软件

行星资源站内搜索下载即可，有多种版本可供下载，由于本人电脑上为MEGA-X版本，下面就此版本介绍具体用法。

PART2

序列比对

做系统进化树之前要做多序列比对，将比对结果提交给MEGA建树。打开MEGA，点击File→Open A File/Session…→找到自己要比对的序列，打开

弹出对话框，选Align

然后5条要比对的序列就进来啦！

接下来我们进行序列比对，在Alignment里面有Alignment by ClustalW和Muscle两个选项。其中ClustalWClustalW是现在用的最广和最经典的多序列比对软件，基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,然后用NJ或者UPGMA方法构建Binary进化树作为guide tree,最后用progressive的方法根据guide tree逐步添加序列进行比对,一直到所有序列都比对好。

Muscle速度快，用于序列多的时候进行的比对。

这里我们选择ClustalW：

弹出对话框选OK，之后弹出多序列比对参数设置窗口。由于MEGA的参数都是经过考量的，所以当看不懂时默认就好。运行后下面就是比对完的结果啦！

因为不同序列的碱基、长度不同，所以为了最大的寻找相似碱基而插入空位，其中-------表示序列内插入的空位。

可以将比对结果保存下来。

保存文件格式选择.meg

双击刚才建好的.meg文件，文件就直接导入MEGA啦，点击，会出现“Sequence Data Explorer”窗口，最上面一行是consensus sequence，也就是一列里出现次数最多的字母。

PART3

最优模型选择

(与原作者观点出现分歧，当出现JTT+G时则第一个MODEL处选JTT，第二个RATE处选G,若出现JTT+G+I时则第一个MODEL处选JTT，第二个RATE处选G+I)

点击Data中的Phylogenetic Analysis，然后返回主页面。

点击MODELS中的Find Best DNA/Protein Models(ML) ，软件会根据你的数据帮你计算寻找最适合的模型，提高建树的精确度。

参数默认即可

运行界面如下，序列较多时，分析时间较长，闲的话可以去跑个PCR......

运行后结果如下。最重要的是BIC（BayesianInformation Criterion），越低代表模型越好。在这里就可以看到，BIC分数最低的模型是JTT+G，但软件不支持组合模型，所以我们选择单个模型中BIC分数最小的，此处为JTT。

PART4

建树

好，下面开始建树~

点击Phylogeny构建进化树，有多种建树方法，适用情况自行摸索哈，此处选择NJ邻接法建树。

弹出设置窗口，没有什么要求时默认即可。

Test of Phylogeny（建树的检验方法），是用来检验建树的质量的。默认的检验方法是Bootstrp method （步长检验）。步长检验需要设定检验次数，通常为100的倍数，默认设置为500，通常1000次以上较为可靠，这里设置1000。

Model处选择上文计算好的JTT。

Gap/Missing Date Treatment，大多数建树方法会要求删除多序列比对中含有空位较多的列。但是根据遗传距离度量方法的不同，删除原则不同。如果是以序列间不同残基的个数来度量遗传距离的话，选择Complete deletion；如果其他方法例如NJ，可以选择Partial deletion，程度约50%。

噔噔噔~~进化树就出来啦！

首先出来的是Original Tree（原始树），是步长检验构建的 1000 株树中的一株，未经过多棵树合并，所以树枝的长短可以精确代表遗传距离，即进化的距离远近。

Bootstrap consensus tree（步长检验合并出来的树），只反映进化关系，树枝的长短与遗传距离无关。

节点处的数字表示，经步长检验有百分之几的树具有这根树枝，即，反应了该树枝的可信度。当前构建的这株系统发生树中，绝大多数节点处的数值都是≥70 的话，这株树整体上就是可信的。

如果觉得树太中规中矩，

可对树的形状进行调整。

可以看出基因名字过长，是因为基因序列导出后，未对基因名做简化处理，大家可以将导出的fasta格式以文本文件打开，将多余字符删除，只保留想要信息即可；当然，忘了处理的，在序列导入MEGA后也可对基因名进行编辑，双击下图所示位置就可以啦！

View:可以更改枝的线条，字体样式等。

Image:输出图片。

Caption:单击后生成文献中该图的标题、备注说明，使用到的文献等，这个功能很好用，写文章会需要的。

最后记得将建树结果保存为.nwk格式，这个结果保存很重要哦，下次直接双击就可进入MEGA对其操作。

以上是对于进化树的简单构建，如果我们要做出好看的进化树的话，还是推荐使用TBtools或者如果有R语言基础的可以尝试ggtree。

MEGA构建进化树

你可能感兴趣的:(MEGA构建进化树)