手里有一堆未知分类的基因组序列,想知道它们是哪个种?是不是新的种?手工一个个的看16s rRNA序列或者是ANI分析,太费劲了!
基因组分类数据库 GTDB(Genome Taxonomy Database)是基于大量基因组的系统发育分析来构建基因组分类学研究的标准流程,从而对微生物进行分类 。
数据库主页:http://gtdb.ecogenomic.org/
我们可以使用工具GTDB-Tk来基于该数据库对未知基因组进行分类。
GTDB-Tk 的输入文件是基因组的fasta文件,它会使用 Prodigal (Hyatt et al., 2010) 预测基因, 使用HMMER (Eddy, 2011) 鉴定出细菌的120个单拷贝标记基因或者古菌的122个标记基因来构建进化树进行分类。
Github(https://github.com/Ecogenomics/GtdbTk)下载GTDB-Tk进行本地安装
使用Bioconda安装
Create a new conda environment: conda create -n gtdbtk
Activate the environment: conda activate gtdbtk
Install GTDB-Tk: conda install -c bioconda gtdbtk
GTDB-Tk 需要下载~27G数据库
wget https://data.ace.uq.edu.au/public/gtdb/data/releases/release89/89.0/gtdbtk_r89_data.tar.gz
这一步花了一晚上的时间。。。
> tar zxvf gtdbtk_r89_data.tar.gz
进入文件 {gtdbtk environment path}/etc/conda/activate.d/gtdbtk.sh 里面将下载解压后数据库的路径加上。
> gtdbtk
...::: GTDB-Tk v1.0.2 :::...
Workflows:
classify_wf -> Classify genomes by placement in GTDB reference tree
(identify -> align -> classify)
de_novo_wf -> Infer de novo tree and decorate with GTDB taxonomy
(identify -> align -> infer -> root -> decorate) [In Development]
Methods:
identify -> Identify marker genes in genome
align -> Create multiple sequence alignment
infer -> Infer tree from multiple sequence alignment
classify -> Determine taxonomic classification of genomes
root -> Root tree using an outgroup
decorate -> Decorate tree with GTDB taxonomy [In Development]
Tools:
trim_msa -> Trim an untrimmed MSA file based on a mask
export_msa -> Export the untrimmed archaeal or bacterial MSA file
Testing:
test -> Test the classify_wf pipeline with 3 archaeal genomes
check_install -> Verify if all GTDB-Tk data files are present
Use: gtdbtk -h for command specific help
测试一个栗子:
> gtdbtk test --out_dir .
INFO: Command: gtdbtk classify_wf --genome_dir ./genomes --out_dir ./output --cpus 1
INFO: Test has successfully finished.
运行成功!!!
查看结果文件 gtdbtk.ar122.summary.tsv
参考文献:
Chaumeil PA, et al. 2019. GTDB-Tk: A toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics, btz848.
Parks DH, et al. 2018. A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nat. Biotechnol., http://dx.doi.org/10.1038/nbt.4229.
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树
必备技能:提问 搜索 Endnote
文献阅读 热心肠 SemanticScholar Geenmedical
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具:16S预测培养基 生信绘图
科研经验:云笔记 云协作 公众号
编程模板: Shell R Perl
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读