GTDB-tk:完成微生物物种注释

GTDB官网:GTDB - Genome Taxonomy Database (ecogenomic.org)

Github: https://github.com/Ecogenomics/GTDBTk

我们今天用docker安装

参照:Docker — GTDB-Tk 2.2.6 documentation (ecogenomics.github.io)

##下载数据库 

wget https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz
wget https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz  (or, mirror)
tar xvzf gtdbtk_v2_data.tar.gz

我们这边已经下载好了,后面记得映射

 来万能的docker hub找一下

ecogenomic/gtdbtk

GTDB-tk:完成微生物物种注释_第1张图片

 

docker pull ecogenomic/gtdbtk:latest

下好之后先run起来试试(失败了)

================================================================================
                                     ERROR                                      
________________________________________________________________________________

           The GTDB-Tk reference data does not exist or is corrupted.           
                           GTDBTK_DATA_PATH=/refdata/                           

   Please compare the checksum to those provided in the download repository.    
          https://github.com/Ecogenomics/GTDBTk#gtdb-tk-reference-data          
================================================================================

看起来是路径问题了

 按照说明把挂载名字改成refdata和data试试  还是不行

再试试

docker run -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest /bin/bash

release207一定要加上不然会一直有上面的报错!!!

但是出现了新的报错(哈哈哈哈)

gtdbtk: error: argument subparser_name: invalid choice: '/bin/bash'

##再改一下试试 加个itd 

docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest

还是不行的

再试试直接跑,不-itd了

docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40

classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见gtdbtk classify_wf -h
 

报错了,看看这两个参数是干什么的

gtdbtk classify_wf: error: one of the arguments --skip_ani_screen --mash_db is required
mutually exclusive required arguments:
  --skip_ani_screen     Skip the ani_screening step to classify genomes using
                        mash and FastANI (default: False)
  --mash_db MASH_DB     path to save/read (if exists) the Mash reference
                        sketch database (.msh)

--skip_ani_screen 加上之后就可以跑了

[2023-04-11 13:54:59] INFO: GTDB-Tk v2.2.6
[2023-04-11 13:54:59] INFO: gtdbtk classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40 --skip_ani_screen
[2023-04-11 13:54:59] INFO: Using GTDB-Tk reference data version r207: /refdata/
[2023-04-11 13:54:59] INFO: Identifying markers in 410 genomes with 40 threads.
[2023-04-11 13:55:00] TASK: Running Prodigal V2.6.3 to identify genes.

==> Processed 0/410 genomes (0%) |               | [?genome/s, ETA ?]

加了nohup 看看会不会断吧!

你可能感兴趣的:(学习)