生信log6细菌全基因组建树|基于GTDB-KT抽单拷贝蛋白序列-iqtree2 && fasttree建树

前言

最近在跑一个很大的数据集,大概有3500条以上的基因序列,因为数量太大,跑树有点搞不定,特此来记录一下这个过程

超过3000个基因组iqtree直接跑断
直接跑了iqtree core dump
fasttree >>>> core dump

1、gtdbkt一条龙抽单拷贝

gtdbtk classify_wf --genome_dir share_BC_ref --out_dir ./share_BC_ref_output/ --extension .fa --cpus 56

2、gtdbkt分步跑

Step1: identify #这步是找出里面的marker gene的

#‘-x’指的是基因序列的拓展名,默认为fna
gtdbtk identify --genome_dir ./your_fna_dir --out_dir ./your_fna_identify_dir --cpus 56 -x fna 

Step2: Align #承接上面的identify的输出文件夹进行比对

gtdbtk align --identify_dir IDENTIFY_DIR --out_dir OUT_DIR 
# --skip_trimming就是不剪
gtdbtk align --identify_dir IDENTIFY_DIR --out_dir OUT_DIR --cpus 56 --skip_trimming 

参数有这些:
[--skip_gtdb_refs] #
[--taxa_filter TAXA_FILTER] #
[--min_perc_aa MIN_PERC_AA] #
[--custom_msa_filters | --skip_trimming] #
[--cols_per_gene COLS_PER_GENE] #
[--min_consensus MIN_CONSENSUS] #
[--max_consensus MAX_CONSENSUS] #
[--min_perc_taxa MIN_PERC_TAXA] #
[--rnd_seed RND_SEED]#
[--prefix PREFIX] #
[--cpus CPUS] #
[--debug] #
[-h]#


3、iqtree做进化树

  • iqtree 内置的modelfinder会找最佳蛋白质模型

不指定模型

iqtree -s gtdbtk.bac120.user_msa.fasta -m MFP -nt 112 -bb 1000 -redo -mredo

指定模型

iqtree -s gtdbtk.bac120.user_msa.fasta -m LG+I+G -nt 112 -bb 1000 -redo -mredo

4、fasttree单线程命令

Fasttree -gamma -lg gtdbtk.bac120.user_msa.fasta > tested_tree.fa

多线程fasttree命令

这个软件里面并没有指定线程的参数,在MacOS/Linux里面软件提供了一个 FastTreeMP 的命令,它能够自动检测电脑最大的线程数

FastTreeMP -gamma -lg gtdbtk.bac120.user_msa.fasta > tested_tree.fa

更多探索会慢慢修改此篇文章,有兴趣的话,关注留意一下。你们的点赞查阅是我分享的动力
参考
GTDBTk
fasttree

你可能感兴趣的:(生信log6细菌全基因组建树|基于GTDB-KT抽单拷贝蛋白序列-iqtree2 && fasttree建树)