宏基因组分箱后续

宏基因组分箱后续

  • 1.分箱流程
  • 2.代谢潜能分析
    • 2.1代谢通路构建
    • 2.2基因簇分析
  • 3.进化树构建
    • 3.1物种选择
      • 3.1.1如何从NCBI批量下载genome数据
    • 3.2进化树构建
      • 3.2.1序列选择
        • 用16S rRNA构建:
        • 用保守基因串联构建:
      • 3.2.2建树
      • 3.2.3进化树美化
  • 4.基因草图可视化
  • 5.进化历程分析

在获得了binning结果之后,下一步应该进行什么分析呢?本文将针对binning之后的分析思路进行梳理。
参考文献:Genomic inference of the metabolism and evolution of the archaeal phylum Aigarchaeota
文献讲解:Nat Commun:宏基因组学提示曙古菌门的代谢和进化(中大李文均组)

1.分箱流程

请参考?
Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读
分箱获得结果:

  • bin
  • 物种注释
  • prokka功能注释

2.代谢潜能分析

代谢潜能分析需要基于prokka的结果进行KEGG等数据库注释,一般针对某一高丰度门进行分析

2.1代谢通路构建

根据基因存在与否进行代谢通路构建,一般关注主要C,N,S,能量代谢通路,还可以根据研究对象所处环境进行针对性分析
关注点:厌氧/需氧,自养/异养,利用的C源等
需要手动整理,非常画时间

2.2基因簇分析

保守区域比对:CDD库

代谢物合成基因簇:
antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测
参考:Novel soil bacteria possess diverse genes for secondary metabolite biosynthesis
中文解读:土壤微生物:我就是 “药神”!


3.进化树构建

3.1物种选择

当bin的物种注释结果明确时:根据bin物种注释结果选择

当bin的物种注释结果只到kingdom水平时:

  • 1查看contig的注释结果
  • 2当contig注释结果不一致时查看16S的注释结果
  • 3选择前人研究中的进化树进行初期比对(比如使用A new view of the tree of life中的进化树)

3.1.1如何从NCBI批量下载genome数据

选择1: ncbi-genome-download
选择2: ncbi_download.py 根据accession编号下载,需要python3环境

#ncbi_download.py使用
#------------------------
python ./ncbi_download.py --convert -g 21516 SAMN02440951

#-g后跟list of genome accession numbers,空格隔开

#--convert 写上的话会根据提供编号查找use NCBI Entrez to get BioSample ID
#如果不写上,只会查找ftp://ftp.ncbi.nih.gov/genomes/genbank/assembly_summary_genbank.txt中有的accessions编号

#注意:如果是python2环境,需要根据报错修改脚本

补充:

  • Nr,GenBank, RefSeq, UniProt 数据库的异同
  • My organism of interest is available in both GenBank and RefSeq. Is
    the genome the same? Which one should I use?

3.2进化树构建

进化树构建首先要选择保守序列然后串联起来,或者选择16S rRNA

3.2.1序列选择

用16S rRNA构建:

  1. 预测bin中的16S rRNA: RNAmmer预测16S rRNA
  2. 如果RNAmmer预测失败,使用BLASTn比对数据库并去除length < 300 bp的序列

软件使用参考:RNAmmer的安装和使用
blast+教程:Blast+的使用教程
rRNA数据库比较: 史上最详细的微生物扩增子数据库整理
RDP数据下载: 微生物多样性专题-扩增子测序分析实战(二)数据库整理之RDP

用保守基因串联构建:

  • 选择1: 使用核糖体marker genes串联(marker gene提取:AMPHORA2),针对细菌和古菌
  • 选择2:使用UBCG提取,这个软件针对细菌core gene

关于核糖体marker genes提取:A simple, fast, and accurate method of phylogenomic inference,the 16 ribosomal proteins chosen as single-copy phylogenetic marker genes (RpL2, 3, 4, 5, 6, 14, 15, 16, 18, 22, and 24, and RpS3, 8, 10, 17, and 19)

根据核糖体marker gene构建进化树参考文献:A new view of the tree of life

3.2.2建树

  1. 序列alignments
  2. RAxML建树(注意模型选择和bootstraps设定)

参考:一文读懂进化树
用在线RaxML构建系统发育树

3.2.3进化树美化

Evolview:提升系统进化树颜值
Evolview:进化树美化进阶
教你用iTOL轻松绘制高颜值系统进化树
iTOL快速绘制颜值最高的进化树!

4.基因草图可视化

对于感兴趣的草图,如果质量高,而且可以找到相似的物种基因组,那么可以放在一起画基因组草图,用相似物种的基因组做为contig顺序的参考。

可视化可以选择:
CGviewer
anvio需要自己整理anvi-interactive输入数据

补充说明:
How are bacterial species defined?

5.进化历程分析

这部分分析还是要为文章内容服务,非常画时间

  1. 筛选感兴趣的bin进行进化历程分析,注意选择的bin必须要高质量
  2. 筛选用来比对的物种genome,注意也要高质量
  3. 比对,筛选sequence identity ≥30%的基因组
  4. 重构蛋白簇,MCL
  5. 进化历程分析,COUNT
  6. 水平转移分析,HGTector

你可能感兴趣的:(宏基因组)