微生物基因组分类数据库GTDB和软件GTDB-Tk

手里有一堆未知分类的基因组序列,想知道它们是哪个种?是不是新的种?手工一个个的看16s rRNA序列或者是ANI分析,太费劲了!

基因组分类数据库 GTDB(Genome Taxonomy Database)是基于大量基因组的系统发育分析来构建基因组分类学研究的标准流程,从而对微生物进行分类 。

数据库主页:http://gtdb.ecogenomic.org/

微生物基因组分类数据库GTDB和软件GTDB-Tk_第1张图片

微生物基因组分类数据库GTDB和软件GTDB-Tk_第2张图片

微生物基因组分类数据库GTDB和软件GTDB-Tk_第3张图片

微生物基因组分类数据库GTDB和软件GTDB-Tk_第4张图片

我们可以使用工具GTDB-Tk来基于该数据库对未知基因组进行分类。

GTDB-Tk 的输入文件是基因组的fasta文件,它会使用 Prodigal (Hyatt et al., 2010) 预测基因, 使用HMMER (Eddy, 2011) 鉴定出细菌的120个单拷贝标记基因或者古菌的122个标记基因来构建进化树进行分类。

Github(https://github.com/Ecogenomics/GtdbTk)下载GTDB-Tk进行本地安装

使用Bioconda安装

  1. Create a new conda environment: conda create -n gtdbtk

  2. Activate the environment: conda activate gtdbtk

  3. Install GTDB-Tk: conda install -c bioconda gtdbtk

微生物基因组分类数据库GTDB和软件GTDB-Tk_第5张图片

GTDB-Tk 需要下载~27G数据库

wget https://data.ace.uq.edu.au/public/gtdb/data/releases/release89/89.0/gtdbtk_r89_data.tar.gz

这一步花了一晚上的时间。。。

> tar zxvf gtdbtk_r89_data.tar.gz

进入文件 {gtdbtk environment path}/etc/conda/activate.d/gtdbtk.sh 里面将下载解压后数据库的路径加上。

> gtdbtk

...::: GTDB-Tk v1.0.2 :::...
  Workflows:
    classify_wf -> Classify genomes by placement in GTDB reference tree

                     (identify -> align -> classify)

    de_novo_wf  -> Infer de novo tree and decorate with GTDB taxonomy

                     (identify -> align -> infer -> root -> decorate) [In Development]

  Methods:

    identify      -> Identify marker genes in genome

    align         -> Create multiple sequence alignment

    infer         -> Infer tree from multiple sequence alignment

    classify      -> Determine taxonomic classification of genomes

    root          -> Root tree using an outgroup

    decorate      -> Decorate tree with GTDB taxonomy [In Development]

  Tools:

    trim_msa      -> Trim an untrimmed MSA file based on a mask

    export_msa    -> Export the untrimmed archaeal or bacterial MSA file

  Testing:

    test          -> Test the classify_wf pipeline with 3 archaeal genomes

    check_install -> Verify if all GTDB-Tk data files are present

  Use: gtdbtk  -h for command specific help

测试一个栗子:

> gtdbtk test --out_dir .

INFO: Command: gtdbtk classify_wf --genome_dir ./genomes --out_dir ./output --cpus 1
INFO: Test has successfully finished.

运行成功!!!

查看结果文件 gtdbtk.ar122.summary.tsv

参考文献:

  • Chaumeil PA, et al. 2019. GTDB-Tk: A toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics, btz848.

  • Parks DH, et al. 2018. A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nat. Biotechnol., http://dx.doi.org/10.1038/nbt.4229.


猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

你可能感兴趣的:(微生物基因组分类数据库GTDB和软件GTDB-Tk)