2021-6-7 UBCG使用

一、软件说明

引用此软件:Na, S. I., Kim, Y. O., Yoon, S. H., Ha, S. M., Baek, I. & Chun, J. (2018). UBCG: Up-to-date bacterial core gene set and pipeline for phylogenomic tree reconstruction. J Microbiol 56. DOI: <10.1007/s12275-018-8014-6

UBCG:最新细菌核心基因集和用于系统树重建的管道
简单来说就是从细菌基因组里提取到92个核心基因经多重比对后串联构建系统发育树。
UBCG管道和文件查看器分别在https://www.ezbiocloud.net/tools/ubcg和https://www.ezbiocloud.net/tools/ubcg_viewer上提供。

二、软件使用

软件要求

  • Java Runtime Environment Version 8
  • Prodigal 2.6.3
  • Hmmsearch 3.1b2
  • Mafft 7.310 64bit
  • Fasttree v.2.1.10

java8及UBCG安装包(jre-8u251-linux-x64.tar.gz和UBCG_v3.zip)
链接:https://pan.baidu.com/s/1V9woLFRnS9ebb40OqAvxNw
提取码:pmtf

安装java8参考ubuntu配置jre8

# 解压安装包:

$ tar xvf jre-8u251-linux-x64.tar.gz 

# 移动解压包到/usr/lib/java:
# 注意:执行前确认该目录下有java文件夹,如果没有请先创建

$ sudo  mkdir /usr/lib/java
$ sudo mv -f jre1.8.0_251/ /usr/lib/java

#配置环境变量:
$ sudo vi /etc/environment

在环境变量中添加:
/usr/lib/java/jre1.8.0_251/

保存命令
按ESC键 跳到命令模式,然后输入:wq!
强制保存文件,并退出vi

# 安装jre8
$ sudo update-alternatives --install /usr/bin/java java /usr/lib/java/jre1.8.0_251/bin/java 300

# 设置默认的java:
$ sudo update-alternatives --config java

# 测试是否安装成功:
$ java -version

执行结果:

image.png
image.png
# 其他软件用conda进行安装。
$ conda create -n UBCG python=3
$ conda activate UBCG
$ conda install -c bioconda prodigal  hmmer mafft fasttree 
# 解压UBCG_v3.zip
$ unzip UBCG_v3.zip
$  cd UBCG

找到相应软件工具位置信息添加到programPath文件中

prodigal=/home/ykd/miniconda3/envs/UBCG/bin/prodigal
hmmsearch=/home/ykd/miniconda3/envs/UBCG/bin/hmmsearch
mafft=/home/ykd/miniconda3/envs/UBCG/bin/mafft
fasttree=/home/ykd/miniconda3/envs/UBCG/bin/FastTree
raxml=/home/ykd/miniconda3/envs/UBCG/bin/raxmlHPC-PTHREADS

至此软件安装成功!

软件使用参考[UBCG] User’s Manual

运行 UBCG 管道

步骤 1:将基因组组装或重叠群 (fasta) 转换为 bcg 文件
# java -jar UBCG.jar extract  此命令使用 prodigal 和 hmmsearch 工具将 fasta 文件转换为 bcg 文件。 java -jar UBCG.jar extract  此命令使用 prodigal 和 hmmsearch 工具将 fasta 文件转换为 bcg 文件。
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/CP012646_s_GCA_001281025.1_KCOM_1350.fasta -label "CP012646_s KCOM 1350" -acc "GCA_001281025.1" -taxon "CP012646_s" -strain "KCOM 1350" 
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_constellatus_subsp._constellatus_GCA_000474075.1_SK53_TYPE.fasta -label "Streptococcus constellatus subsp. constellatus SK53(T)" -acc "GCA_000474075.1" -taxon "Streptococcus constellatus subsp. constellatus" -strain "SK53" -type 
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_constellatus_subsp._pharyngis_GCA_000223295.2_SK1060_TYPE.fasta -label "Streptococcus constellatus subsp. pharyngis SK1060(T)" -acc "GCA_000223295.2" -taxon "Streptococcus constellatus subsp. pharyngis" -strain "SK1060" -type 
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/CP014326_s_GCA_001560895.1_SVGS_061.fasta -label "CP014326_s SVGS_061" -acc "GCA_001560895.1" -taxon "CP014326_s" -strain "SVGS_061" 
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_mitis_GCA_002014755.1_CCUG_31611_TYPE.fasta -label "Streptococcus mitis CCUG 31611(T)" -acc "GCA_002014755.1" -taxon "Streptococcus mitis" -strain "CCUG 31611" -type 
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_pneumoniae_GCA_001457635.1_NCTC_7465_TYPE.fasta -label "Streptococcus pneumoniae NCTC 7465(T)" -acc "GCA_001457635.1" -taxon "Streptococcus pneumoniae" -strain "NCTC 7465" -type 
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_pseudopneumoniae_GCA_002087075.1_CCUG_49455_TYPE.fasta -label "Streptococcus pseudopneumoniae CCUG 49455(T)" -acc "GCA_002087075.1" -taxon "Streptococcus pseudopneumoniae" -strain "CCUG 49455" -type 
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_pneumoniae_GCA_000006885.1_TIGR4.fasta -label "Streptococcus pneumoniae TIGR4" -acc "GCA_000006885.1" -taxon "Streptococcus pneumoniae" -strain "TIGR4" 

步骤 2:从bcg文件生成多个比对,创建UBCG树
# java -jar UBCG.jar align
$ java -jar UBCG.jar align -bcg_dir bcg -prefix my_example

image.png

步骤一必须需要指定以下参数:
-i :包含基因组组装的输入 FASTA 文件的路径。
-bcg_dir : 所有 bcg 文件的目录。bcg文件的名称将与fasta文件相同。如 -bcg_dir bcg
-label :菌株/基因组的完整标签。应该用引号包围,如 -label “Escherichia coli O157 876”。 最后进化树上显示的结果
以下是可选参数
-taxon:物种名,如 -taxon “Escherichia coli”
-strain : 菌株名称,如 -strain “O157 876”
-type :如果菌株是物种或亚种的模式菌株则添加此项
-acc : 基因组序列登录号。

第 2 步必须指定参数:
-bcg_dir 目录,用于要包含在对齐中的 bcg 文件。
可选参数:
-out_dir 所有输出文件所在的目录
-a :比对方法(默认:codon)。
nt : 核苷酸序列比对
aa : 氨基酸序列比对
codon:基于密码子的比对(输出是核苷酸序列,但比对是使用氨基酸序列进行的)。
codon12 :与“codon”选项相同,但仅选择密码子的第 1 个和第 2 个核苷酸。第 3 位通常具有高度可变性。
-t <整数> :要使用的线程数(默认值:1)
-f <整数> :为包含间隙的位置设置过滤截止值(默认值:50),输入 0~100
0 选择所有对齐位置
100 选择存在于所有基因组中的位置
50 选择存在于一半基因组中的位置
-gsi_threshold:基因支持指数 (GSI) 的阈值。95 表示 95%。(默认值 = 95)
-raxml :使用 RAxML 进行系统发育重建(默认值:FastTree)。RAxML 比 FastTree 慢得多。
-zZ :制作 zZ 格式的文件。这还为每个基因组的名称创建了具有 zZ+uid+zZ 格式的 fasta/nwk 文件
典型运行示例
$ java -jar UBCG.jar align -bcg_dir bcg -prefix mytest1
使用“bcg”目录中的bcg文件对齐并绘制树,并将所有结果保存在“output/mytest1”目录中。

  • mytest1.UBCG_gsi(92).codon.50.label.nwk= A newick file based on UBCG + Gene Support Index (GGI) values with full label

可以用MEGA或其他进化树树查看程序打开。

image.png

UBCG 树显示:
1)92个UBCG都支持两个Streptococcus constellatus亚种间亲缘关系密切。
肺炎链球菌TIGR4与肺炎链球菌;
2)UBCG中有72个基因支持Streptococcus pneumoniae TIGR4与Streptococcus pneumoniae 的模式菌株NCTC 7465密切相关;
3)两个暂定的新种CP012646_s和CP014326_s与S. pneumoniae,Streptococcus pseudopneumoniaeStreptococcus mitis形成了一个单系分枝。

你可能感兴趣的:(2021-6-7 UBCG使用)