1、mapping(bowtie2)比对,估计基因丰度
2、利用contig的核酸组成和丰度的算法来binning,之后再进行单菌组装、宏基因组关联分析等
Mapping简介:
序列的两种分析策略:read-based (mapping) 和 assembly-based
assembly-based approach 受到覆盖度的制约,因为组装时低覆盖度的区域是不会进行组装的,而是被丢弃,这样低丰度的细菌的信息就被丢弃了,反映在reads利用率上,就是往往reads利用率极低,往往低于50%
而 read-based (mapping) approach 则受到reference databases的制约,因为细菌的遗传多样性很高,即便是同一个菌种,它的不同菌株,其基因组的组成也是有相对比较大的差异的,那么在mapping的时候就会出现mapping不上的问题,使得mapping效率不够高;而且只能分析reference databases中有的物种,对于reference databases未收录的新物种,是无法进行分析的。
binning简介:
宏基因组分箱(Binning)是将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程。聚类技术知识尽力去通过识别reads或contigs特殊的地方以及跟其他序列相近的地方来分出OUT的分类。
宏基因组分箱有助于获得某些微生物的全基因组序列,获得新物种的基因组序列和功能,预测未知物种的培养方法等等。
基于宏基因组数据的contig binning分析,可基于宏基因组组装结果,将组成相似以及丰度分布模式一致的contig划分到同一物种,并进一步进行单菌的草图组装。从而可在基于单菌组装结果的基础上进行菌株水平的基因和功能注释、比较基因组分析、进化分析等。
binning原理:
1、最开始进行binning分析的依据是,来自同一菌株的序列,其核酸组成是相似的。于是可以根据核酸组成信息来进行binning,例如根据核酸使用频率(oligonucleotide frequency variations),通常是四核苷酸频率(tetranucleotide frequency)、GC含量和必需的单拷贝基因等。即根据核酸组成(NC-Nucleotide composition)来进行contig binning。
2、随后的研究发现来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的 (Nielsen et al., 2014)。因此可以根据基因在不同样品中的丰度变化模式( co-abundance patterns across multiple samples),即微分丰度(DA-Differential abundance)来进行contig binning。这种方法更有普适性,一般效果也比较好,能达到菌株的水平。但这种方式需要较大样本量,一般至少要50个样本以上,且至少要有2个组能呈现丰度变化 ( 即不同的处理、不同的时间、疾病和健康、或者不同的采样地点等 ) ,每个组内的生物学重复也要尽量的多。
3、还可以同时依据核酸组成和丰度变化信息,即核酸组成与丰度(NCA-Nucleotide composition and abundance),利用核酸组成信息和丰度差异综合计算距离矩阵,既能保证binning效果,也能相对节约计算资源,现在比较主流的binning软件大多是NCA算法。
总结:Microbiome期刊于2016年发表了一篇综述,认为contig binning的组装策略主要分为3类:核酸组成(NC)、微分丰度(DA)、核酸组成与丰度(NCA)等,然而各个方法都有各自的优缺点(Sangwan et al., 2016)[9]。
核酸组成与丰度(NCA)算法将核酸组成信息和丰度差异信息创建一个综合的距离矩阵,既能保证binning效果,也能相对节约计算资源。
针对宏基因组测序后的数据不同聚类方法的前提,方法,优点,缺点和挑战:
http://blog.sina.com.cn/s/blog_50e7795c0102wm7s.html
应用:宏基因组关联分析(MWAS-Metagenome Wide-Association Study)以及单菌组装。
一、宏基因组关联分析流程,常见关联分析方法:
多元统计分析:例如根据PERMANOVA分析,识别和分组显著相关的因素(例如药物干预或者疾病);
非监督模型聚类分析: 如肠型分析;
差异检验:根据差异检验统计算法,识别组间差异物种或差异基因;
功能分析: 识别和疾病等相关的通路或者功能;
分类模型构建: 例如使用决策树算法或者分类算法,对分类模型构建并评估。
二、单菌组装流程:
1、得到bins后的组装。将各个样品的clean reads分别同该bin所包含的contigs进行比对,并计算每个样品map上的比例,选取map率高的前几个样品map上的reads分别单独组装,同时也可以将map率高的这几个样品中map上的reads混合在一起进行组装,可选取组装效果好的做为最终组装结果。对于组装软件,可使用常用的组装软件SOAPdenovo、Velvet、ABySS、Spades 等。
2、组装效果评估。对于上述bins重新组装得到的基因组草图,可以进行基因组完整度的评估,也可以用CheckM和GC-Depth分布图,来评估组装效果。
3、 组装的单菌基因组分析。对组装后的基因组草图,可进一步进行单菌组装出的基因组分析,包括基因组组分分析、基因预测以及功能注释分析、共线性比较分析等。如果需要对组装出来的单菌进行注释,可以基于NR库。后续可进行ANI( average nucleotide identity )等分析。种内菌株的精细化鉴定还可以借助系统发育分析,比较基因组分析等方法。由于组装出来的基因组草图很可能是未知的物种,在NCBI中并没有近缘相关的参考基因组,或者bin的基因组草图组装的太碎,都可能导致物种鉴定达不到理想的效果。
pipeline
1、比对估计基因丰度的软件:
bowtie2、samtools、bedtools
2、binning软件(Maxbin、MetaBAT、MetaWatt、CONCOCT、MyCC)
安装方式(maxbin为例):
curl https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz
tar xzvf MaxBin-2.2.2.tar.gz
cd MaxBin-2.2.2/src
make
添加环境变量
curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz
tar xvf metabatv0.32.4.tar.gz
3、分箱后评估的软件checkm:
conda create -n checkm checkm=1.0.11 #安装checkm
4、分箱后可视化软件vizbin:
5、估计物种丰度的软件Metaphlan、Karken
安装方式(Metaphlan)
wget https://bitbucket.org/biobakery/metaphlan2/get/default.zip
tar xzvf biobakery-metaphlan2-
cd biobakery-metaphlan2-
添加环境变量
Karken
conda create -n kraken=1.0
karken db 下载 wget -c https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
6、组装和分箱结果的可视化:Anvio
安装方式conda create -n anvio anvio=4.0.0
7、数据库
## eggnog对应的细菌数据库下载
download_eggnog_data.py bact
## silva 原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)
axel https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz
## nr非冗余数据库
# 结合diamond进行nr库比对
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz.md5
# https://github.com/bbuchfink/diamond
# diamond makedb --in nr.faa -d nr
## MEGAN注释文件
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/prot_acc2tax-Mar2018X1.abin.zip
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/SSURef_NR99_128_tax_silva_to_NCBI_synonyms.map.gz
## kaiju物种注释文件
# Representative genomes from proGenomes
makeDB.sh -p -v
# Non-redundant protein database nr
makeDB.sh -n
##karken 注释文件
kraken2-build --standard --threads 24 --db kraken
参考:
https://blog.csdn.net/woodcorpse/article/details/78483295
https://www.jianshu.com/p/d80e331de68a
http://blog.sina.com.cn/s/blog_50e7795c0102wm7s.html
https://www.jianshu.com/p/66ab14988a74
https://www.sohu.com/a/227023939_464200
http://wap.sciencenet.cn/blog-3334560-1128063.html
https://blog.csdn.net/wangyiqi806643897/article/details/25231113
bowtie2 manual网址:http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml