宏基因组分析笔记之binning

一、宏基因组简介：

reads→（根据overlap组装）→ contig重叠群 → （构建454 paired-end库或illumina meta-paired库，组装）→ scaffold → （binning）→ chromosome基因组草图

Contig N50：Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例：Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.

Scaffold N50：Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.举例：Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.

二、binning简介：

宏基因组分箱（Binning）是将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程。宏基因组分箱技术有助于获得不可培养微生物的全基因组序列，获得新物种的基因组序列和功能，预测未知物种的培养方法等等。

1，统计contig深度

第一列：contigName

第二列：contigLen

第三列：totalAvgDepth

第四列：library1.sorted.bam

第五列：library1.sorted.bam-var

第六列：library2.sorted.bam

第七列：library2.sorted.bam-var

2，用metabat软件binning

3，CheckM软件做基因组的质量评估

基因组组装或者宏基因组binning获得的基因组草图，首先需要评估其质量，包括基因组完整度、污染度、序列分布等信息。

https://mp.weixin.qq.com/s/2cggAwQbRRWG9WfjEj0t9Q

三、binning原理

1、binning的依据：

（1）根据核酸组成信息来进行binning：k-mer frequencies（来自同一菌株的序列，其核酸组成是相似的）：如根据核酸使用频率（oligonucleotide frequency variations），通常是四核苷酸频率（tetranucleotide frequency），GC含量和必需的单拷贝基因等

（2）根据丰度信息来进行binning：来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的。如，某一细菌中有两个基因，A和B，它们在该细菌基因组中的拷贝数比例为 A:B = 2:1，则不管在哪个样品中这种细菌的数量有多少，这两个基因的丰度比例总是为 2:1。但这种方式需要较大样本量，一般至少要50个样本以上，且至少要有2个组能呈现丰度变化 ( 即不同的处理、不同的时间、疾病和健康、或者不同的采样地点等 ) ，每个组内的生物学重复也要尽量的多。

（3）同时依据核酸组成和丰度变化信息：利用核酸组成信息和丰度差异综合计算距离矩阵，既能保证binning效果，也能相对节约计算资源，现在比较主流的binning软件大多是NCA算法。

（4）根据基因组甲基化模式：不同的细菌，其基因组甲基化模式不同，平均一种细菌有3种特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因，其基因水平转移是细菌甲基化组多样性的驱动因素。虽然 MGEs 在不同个体的拷贝数不同，但是都存在，因此具有相同 MGEs 的细菌个体，其总遗传物质（包括染色体和 MGEs ）都会受到相同的MTase的作用而得到相同的甲基化模式。

2、binning

原始的clean reads，还是从组装成的contig，还是从预测到的gene，都可以binning，暂且分为reads binning， contig binning和 genes binning。应用最广泛的就是基于genes binning 和 contig binning

四、binning后续分析

关联分析

即通过binning得到的bins（暂且简称为bins，更确切的说是strain-level clusters 或strain-level taxonomic units）可以进行宏基因组关联分析以及多组学联合分析，将特定功能代谢产物与特定物种、特定基因进行关联研究，推动其因果机制的探究，为疾病监控、环境监测提供了菌株水平的生物靶标。

单菌组装

通过对binning得到的bins进行后续组装，可以得到很多不能在实验室里培养的细菌、古菌、病毒的基因组草图，然后根据单菌组装结果进行菌株水平的基因和功能注释、比较基因组分析、进化分析等，使我们得以洞察这些无法在实验室培养获得的菌株的生态适应机制，营养互作机制和新陈代谢功能等，可以研究在生态环境和复杂疾病中起重要作用的菌种以及致病菌和宿主的互作机制及其微进化机制。

参考：

https://www.jianshu.com/p/66ab14988a74

https://www.jianshu.com/p/f010020a2859

https://mp.weixin.qq.com/s/2cggAwQbRRWG9WfjEj0t9Q

http://www.pinlue.com/article/2018/09/1804/497268180444.html

https://www.jianshu.com/p/117441ac6eb8

宏基因组分析笔记之binning

你可能感兴趣的:(宏基因组分析笔记之binning)