系统发育树的构建在大学学过并用来做毕设,可是感觉自己在进化树的构建上面仍有一些知识/技能模块的缺失,恰好导师请了一位做进化的好友专门过来给我讲解了进化树的构建,让我能补齐一些知识。
数据
序列根据需要可以选取不同类型(cds、dna、rna、protein...)和不同位置(基因家族的全长序列、基因家族某个结构域的序列、非编码序列...)。在序列选取过程中尽量排除具有诱导性的序列。实验过程所用的是一组病毒中某基因家族的cds序列。
>less -S gB.fas#共有80条。
例:
>AF257079
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGACCCCGACGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCCGCGCCCGGGACGGGCGCCACCCCAGACGGCTTCTCCACGGAGGAGTCCCTCGAGGAGATCGACGGGGCCGTCTCCCCCGGCCCCTCGGACGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGGCGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCATAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCCGCACACGCTCAAGTTCTACGACATTGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGCCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGGCGCTCAAGGAGGACGGCGTCGAAGAGGACGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGTGATGGCCACGCGCCGCCGGCACTACCAGCGCCTC
>GQ325658
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGGCCCCGCCGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCGACGCCCGTCCCGGGCAGCCCCGGCCTCACCCCCAACGACGTCTCCGCGGAGGCGTCCCTCGAGGAGATCGAGGCGTTCACCCCCGGCCCCTCGGAGGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCGGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCCACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATTGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGCCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTGGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCAGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCGGCCCGGCGGGCCCGGCGCGCCGCCGGGCAGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCGGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACACGCTGGGCCGCATCGCGGCCGCCTGGTGCGAGCTGCAGAACAAGGACCGCACCCTGTGGAGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTCGGCCAGCGCGTCTNGGCGCGCATGCTNGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTCACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGGAGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTGGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACGCGCTCAAGTTCTACGACATCGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGTCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGACGCTCAAGGAGGACGGCGTCGACGAGGGCGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGCGATGGCCACGCGCCGCCGGCACTACCAGCGCCTCGAGAGCGAGGACCCCGACGCCCTGTAG
>KF711983
GGCCCATCGGAGGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGATGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCAAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAAGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCAGAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACGCGCTCAAGTTCTAC
>KJ526432
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGACCCCGACGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCCGCGCCCGGGACGGGCGCCACCCCAGACGGCTTCTCCACGGAGGAGTCCCTCGAGGAGATCGACGGGGCCGTCTCCCCCGGCCCCTCGGACGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCATAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACACGCTCAAGTTCTACGACATTGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGCCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGGCGCTCAAGGAGGACGGCGTCGAAGAGGACGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGTGATGGCCACGCGCCGCCGGCACTACCAGCGCCTCGAGAGCGAGGACCCCGACGCCCTGTAG
...................................
建树流程
1.进行多序列比对
软件有:prank、mafft、muscle等。其中prank最准确,但耗费的时间和计算机资源最多,所以一般用于序列少的数据(100条左右的序列)。mafft又比muscle快,适合在大数据量的比对中使用。
2.保守区的选取
Gblocks,输入文件为比对过后的序列文件,能筛选出保守区。
3.寻找适合的model
使用Jmodel找出最适合的模型,用于后续建树的使用,增加可靠性。
4.建树
建树软件有非常多,一般主要用ML和贝叶斯方法,NJ比较适合相似的序列。最好能同时使用ML和贝叶斯两种方法进行建树,然后对比它们结果。
上机操作
序列比对
上机使用muscle进行多序列比对(有机会多尝试几种比对的方法,对比它们的比对结果)。
muscle 下载网址http://www.drive5.com/muscle/downloads.htm
commond
./muscle3.8.31_i86linux64 -in gB.fas -out gB_muscleOut.fas
结果
使用mega打开
保守区的选择
使用Gblocks服务网站进行保守区的筛选,也可以用本地版的Gblocks
http://molevol.cmima.csic.es/castresana/Gblocks_server.html
将muscle比对后的文件上传至网页。
因为实验中的序列是cds序列,所以应选择codons选项,其他选项不选。
提交后会弹出来一个结果页面:
等完全载入后,直接下载页面最下方的输出文件(result aligment)
寻找适合的model
先要将上一步得到的blocks序列文件(result aligment)转化成phylips格式文件(使用jmodeltest)#因为忽然连不上服务器,没法重新跑一次流程,就直接粘贴上次用的命令----记得重新跑一次
java -jar jModelTest.jar -d gB_out_muscle_gblocks.fas -getPhylip >gB_out_muscle_gblocks.phy
开始进行model的寻找
java -jar jModelTest.jar -BIC -d gB_out_muscle_gblocks.phy -f -g 4 -i -o gB_out_muscle_gblocks.fas.bic -s 203 -S BEST -tr 50
-s 203表示在203个model(即全部的model)中寻找,如果使用默认值可能有些model会被忽略。
阅读输出文件最后的部分,找出最优模型
tail gB_out_-_gblocks.fas.bic
此最优模型为 TIM1+I+G 这些需要作为参数输入phyml(本实验使用的建树方法)
有时需要进行参数的换算,可以参照表格
所以最佳参数为 -m 012230 -a 0.98 -v 0.31
进行进化树的构建
软件的安装(这边使用的是mpi版的)
tar -zvxf phyml-20120412.tar.gz
cd phyml-20120412
mkdir phyml_1
./configure --prefix=/home/wangjl/tree_test/phyml-20120412/phyml_1/ --enable-mpi
make
进化树的构建:
mpirun -np 50 phyml-mpi -i gB_out_-_gblocks.fas.phy -d nt -b 1000 -s BEST -o tlr -m 012230 -a 0.98 -v 0.31 --no_memory_check #有一个 -m 参数,需要输入jmodeltest得到的最优模型,具体要研究·jmodeltest和参数说明。-b表示进行1000bootstrap
结果可以用mega或itol查看。
进化树的美化:建议使用itol(http://itol.embl.de/)(通过写配置文件可以实现比较炫的美化效果)