基因家族分析(3):序列比对与进化树构建

本文主要工作:

(1) 按前期处理凤梨所需分析数据下载并处理拟南芥分析数据

(2) 对拟南芥和凤梨 SBT 基因家族cds序列进行比对,并构建进化树文件

3.序列比对与进化树构建

3.1数据准备

由于在序列比对构建进化树过程中需要使用拟南芥数据,在这里我们仍然按照菠萝所需基因组数据下载拟南芥相关数据,并先对部分进行处理。可以看到cds和蛋白质序列中的序列数和基因数量是相等的,因此我们不需要对其进行更改。只有gff3文件需要对mRNA进行更改,保留在cds序列中的ID,但是由于这一大步不涉及gff3文件,而更改起来又需要自己写个脚本,故而放在之后的过程中应用。最后本大步需要改动的是cds和pep序列中的id名。我们在这里只使用sed命令加正则表达式就好。

随后我们仍然需要重复之前对菠萝的操作,鉴定拟南芥中的SBT基因家族。由于原理是相同的,我在这里就不多加以说明,仅给出代码。顺便一提,根据我个人的看法,在进行序列比对与构建进化树时,仍然需要使用cds即基因组编码序列。因为对基因家族的研究使用要回归到基因组序列上,基因家族的变化实质上是基因编码序列的碱基变化。那么为什么我们前面要用蛋白质序列鉴定呢?因为Pfam上保存的实际上是蛋白质保守结构域模型。


3.2 序列比对

在这里,我们仅进行菠萝和拟南芥之间的序列比对,而在文章中作者也添加了其它物种构建了另一个进化树,我们并不涉及此。多序列比对我们使用的是muscle软件,也可以使用conda 安装。而在比对时,我们只需要输入合并了的菠萝和拟南芥SBT 家族cds序列就可以得到新的比对文件了。

3.3 进化树构建

在得到序列比对文件后,我们仍然需要进行一定的处理。比对过后的文件仍然是类似fasta格式的,但是我们在本章使用的建树软件iqtree需要输入phylip格式文件。此外,通过less命令查看比对文件可以发现,比对后的文件存在大片段gap,这对于进化树构建的计算资源消耗较大,因此我们需要对比对文件进行处理。以上需求我们可以通过trimal软件实现,该软件可通过conda 安装。

在得到处理好的进化树文件后,我们就可以构建进化树了。这里用到的软件是iqtree,它是基于最大似然法构建进化树的。具体内容我计划在之后专门开专栏学习并阐明。这款软件也是可以通过conda安装。


当iqtree运行完成后,我们会得到一系列以刚才我们规定前缀的文件,在这里我们选取的主要是以treefile结尾的文件,它是newick格式的树文件,可以直接使用该文件在MEGA或是iTol等建树专业地址进行进化树构建。有关它们的使用方法可以参考:iTOL美化系统发育树 - ;MEGA 美化进化树 - 。在这里我仅对树文件细节做一下说明,通过预览可以发现每个基因的id都带有类似于.1这样的东西存在,它代表的是对可变剪切保留最长转录本后由某个基因编码的第n个rna id。但是我们在构建进化树时为了美观,同时也为了更符合基因id这个概念,我们选择把它们删去。这里结合sed命令实现。





你可能感兴趣的:(基因家族分析(3):序列比对与进化树构建)