1. 高通量测序是探索宏基因组学研究的一个工具
1.1与参考基因组进行Mapping来重构宏基因组Reads
许多微生物未被分离,数据库中无相关信息;
利用宏基因组Reads与当前已知数据库进行比较分析,可以对数据产生新的理解;
已测序的基因组是宏基因组Reads来源确定最可靠的基础,探索与先前基因组密切相关的生物体基因组结构;
从独立测序转变成从环境中直接测序感兴趣的生物体的开始;
已分离微生物但未测序的数量巨大,提交公开的数据远小于需求;
参考基因组用于宏基因组分析会因所分析数据的规模大小而更加复杂;
需要新的算法来支持宏基因组数据与参考数据库之间的比较分析;
尽管存在局限性,参考基因组已经被有效的应用于宏基因组数据分析;
宏基因组数据与参考基因组比对也可以提供对特定样本中特定微生物适应性提供新的见解。
1.2 TaxonomicClassification/Binning
基于Reads与已知序列Mapping的方法,没办法表征大量尚未分离和测序的微生物群体。
现有的比对算法只能发现近缘关系,且仅能用于分析数据库中与基因组最密切相关的环境微生物。
在“taxonomicbinning”或“taxonomicclassification”的过程中使用机器学习技术可以推断远缘关系。 这类工具试图将每个Reads比对到分类学中一个近乎广泛的分类群“bin”中(例如属或者科)。
一款软件:MEGAN,基于BlastSearch用于鉴别Reads跟数据库中已知分类序列的匹配性。
其他方法:K-mer(短序列模式比对),利用机器学习技术,对由已知基因组构建的数据库进行匹配。
不同分类中DNA组分具有一定相似性,当不能利用比对而进行分类:基于“Self-OrganizingMaps”的工具,插值马尔可夫模型—Phymmbl、朴素贝叶斯分类器—NBC和支持向量机—Phylopythia。
基于组合( Compositional )的方法,可能会受到非寻常基因组区域或横向基因转移的影响。这些局限性可以通过关注系统发育信息的特定基因来解决,即,它们的组成与有机体的进化历史相关。工具包括:Amphora、Metaphler、MetaPhlAn和mOTU。
1.3 de novo组装构建宏基因组短序列基因集
对宏基因组序列进行广泛分类不足以理解一个群落中微生物的功能。因基因组相关,但在临床功能上却不同(例如:共生和致病大肠杆菌菌株)。
人类肠道菌群在功能上的相对稳定,但微生物组成和种类差异较大。
从宏基因组数据中重建基因或基因组是向着更好地描述其功能,迈出重要的第一步,尽管有些分析可以从独立的Reads开始。
组装任务相对艰巨,即使是独立的基因组组装同样如此,组装复杂的原因如下:1)低丰度的生物体由于缺乏覆盖而无法有效地组装;2)群落成员之间丰度/覆盖范围的巨大差异使基因组重复序列的鉴定变得困难;3)紧密相关的生物体之间的真正差异与测序错误不容易区分。
根据宏基因组数据的特征开发的工具包括:Meta-IDBA、Meta-Velvet和集成的分析流程,包括组装和下游分析,例如基因查询与分类—MOCAT和MetAMOS。
注意:对复杂微生物群体的重要组成部分进行有效测序对重新构建基因组的能力并不明显。测序深度足够才能确保数据可以被组装,但成本昂贵,且生成了足够数据,也不易对数据进行计算分析。在与宿主相关的群落中,人类DNA污染极大地降低了有效测序深度,因此,强调了制定富集样品微生物策略的必要性。另外,高度复杂的群落,如土壤,分析仍然是一个重大挑战。
尽管组装的目的是重建整个基因组,但宏基因组组装后输出是高度碎片化的,需要额外的分析来确定属于同一基因组的contig集合。基于组合的方法和覆盖度信息可达成此目的,尽管更详细的数据分析可能需要手动检查装配结果。
由于组装宏基因组数据缺乏连续性及其复杂性,迄今为止的研究大多集中于表征数据的基因含量,而不是重建个体微生物。这些分析揭示了微生物生态系统中隐藏着巨大的基因多样性。
1.4 宏基因组基因集的聚类
宏基因组基因集的庞大规模,使得分析和解释结果数据变得困难。解决途径之一:使用多样本的丰度基因(通过将宏基因组ReadsMap到基因集)来识别具有相关丰度的基因。具有高度相关丰度的基因可以推断来自同一个染色体,从而可以重建虚拟基因簇。然而,由于环境成员之间的共生或互惠的相互作用,高相关性可以预期,同时环境成员这一因素可能导致来自不同生物体的基因错误聚类。相反,可变基因,如前噬菌体区域,不会与含有它们的生物体聚集在一起,因此很难利用这些基因簇来研究微生物对环境的特殊适应。
尽管存在局限性,但基因簇越来越多地被用于诠释宏基因组数据,并简化分析过程。
基因簇也可以作为一个框架,人们可以围绕着它来重建宏基因组生物体,方法是通过迭代收敛宏基因组ReadsMap到簇内基因,然后组装得到的序列。
构建基因组的质量是关键问题,需要严苛的标准。
1.5 宏基因组分析的优势
大多数宏基因组学研究主要集中在拓展独立基因组开发的分析方法。宏基因组数据的特殊性,以及宏基因组在大量样本收集中的应用,使得探索单一培养微生物无法研究的生物学问题成为可能,其中包括试图揭示群落成员之间的相互作用,探索横向基因转移,以及研究微生物生态系统的动态行为。
2.鸟枪法宏基因组微生物分类分析的计算工具
2.1 鸟枪法宏基因组学分类学分析
Taxonomic Profiling:确定微生物群落中存在的有机体及其丰富度通常是揭示这些群落生物学的第一步。分类特征分析是一种计算操作,用于推断环境微生物群落中,微生物分类情况并且以何种比例(相对丰度)填充环境样品。
分类学分析方法的特点:它们都在不同程度上依赖于(已测序微生物的)参考数据库来为序列分配分类标签。宏基因组和参考数据库的规模对分类分析提出了重大挑战。
目前用于宏基因组分类分析方法可以根据他们利用参考基因组的直接程度进行划分:Assembly、Compositional、Mapping、Marker-basedapproaches。
2.2 基于组装的微生物分类学分析(Assembly-Based)
为了获取环境样品中完整基因组的信息,需要复原每个微生物的全长基因组序列,显然这是理想情况。
但是利用宏基因组denovo(从头)组装技术,宏基因组reads首先组装成contigs,并且在某些情况下,有可能重建群落中优势成员的基因组。在组装步骤后,通过与参考基因组的序列比对,将分类或系统发育信息归于每个contig。
软件:MetAMOS、MOCAT、Ray Meta
SOAP de novo直接应用于宏基因组数据并获得一定成功,但是,这些工具不适用于混合基因组的宏基因组项目。
为了处理宏基因组序列,包括由于样本的量而引起的计算机内存问题,以及跨组织嵌合Contigs或Scanffolds,开发了几种扩展。
MetaVelvet和Meta-IDBA是两款基因基于deBruijn的宏基因组组装工具,它对宏基因组样品中高丰度的生物体友好,能形成有效高质量的组装。
contigs的分类地位通常是通过比对参考基因组的序列完成的,自动化工具包括:MetaPhyler、PhyloPhlAn。
这些工具,除了分类学分析外,还提供了一个评估的contigs系统基因组,通过把contigs放在环境微生物系统发育树中。特别是,PhyloPhlAn利用微生物系统发育中已测序成员的400个最保守的蛋白质来推断新基因组或宏基因组组装的contig的系统发育位置。
基于组装的方法特别适用于微生物组研究尤其是包含大量以前未观测到(未测序)微生物。被部分参考序列覆盖的宏基因数据,基于组装的优势在于,他们依赖于参考基因组的使用,而其他分析方法则会缺失群落中部分新的微生物信息。
目前,宏基因组组装仍然是一个活跃的研究领域,因为紧密相关的生物体、高度保守的DNA区域和水平基因转移对获得精确的组装提出了重大挑战。
2.3 组合的方法进行宏基因组数据分箱(COMPOSITIONAL APPROACHES FOR METAGENOMIC BINNING)
组合的方法比较的是序列内在特性,而不依赖于核苷酸或蛋白质序列比对。内在特性包括:GC含量的变化、密码子使用的偏向性和不同长度k-mers的分布。
在组合方法中,第一步是通过预处理参考基因组(所谓的训练步骤)建立特有内在特性物种或属的统计模型。第二步是应用这个模型来比较和分类宏基因组Reads。
实现方法: PhyloPythia/PhyloPythiaS采用基于k-mer统计的支持向量分类器。
不同的方法使用不用的机器学习工具,包括基于贝叶斯模型的Phymm和NBC,以及采用基于k-nearestneighbor策略的TACOA。
组合方法避免了计算上耗时的序列比对,节省了计算运行时间。与组装方法类似,它具有很好的包容性,没有参考序列比对的情况下,对reads进行良好的分类。当有参考序列的情况下,则需要以牺牲低分辨能力为代价。因此,组合分类分析通常仅限于属级水平解析,此外,低分辨能力会因短序列进一步加剧,基于组合的方法和基于Mapping的方法相结合,可以避免这样的缺点。
2.4 基于Mapping的宏基因组序列分类
基于Mapping或比对的方法,均根据与参考基因组的序列相似性来分类宏基因组Reads。目前,基于DNAReads与基因组Mapping的工具更具先进性。与类似于BLAST比对的工具相比速度上快几个数量级。
它们利用紧凑的指数(例如基于Burrows-Wheeler变换的指数)来有效地识别参考基因组有效序列子集并进行完全比对。虽然BLASTN作为Mapping的底层引擎,更新升级依旧可以形成快速算法(例如:Bowtie2,SOAP2,BWA)。
2.5 基于Marker的分类分析
参考基因组中可用于分类特征分析的大部分基因组信息是非信息性的(例如,跨多个分类群的保守序列),有时甚至是误导性的(例如,水平转移的基因)。基于Marker的方法对参考基因组进行预处理,以去除冗余和非歧视性的序列,并专注于最具分类信息的标记。因此,这减少了参考基因组数据库的大小,降低了计算要求,因为宏基因组样本仅与每个基因组的一小部分(标记集)进行比较。到目前为止,已有两类标记被用于分类鉴定:通用标记和特定分支的标记。
通用标记是指:(i)存在于所有微生物中;(ii)具有可变区域的序列,可作为分类或系统发育标记加以利用。
通用标记利用了少数普遍保守的基因组序列,这些序列预计存在于尚未测序的微生物中,但不能利用构成微生物基因组大多数的非普遍存在的基因。
微生物基因组中非普遍存在的区域可以被着重放在每个分类分支(例如,每个物种)唯一存在的分支特异性标记基因上。这些基因被定义为给定分支内的核心基因,与分支外的任何其他基因没有序列相似性。因此,它们是每个微生物分支的独特指纹,只需检查它们在宏基因组中的存在与否,就可以高精度地鉴别出密切相关的微生物。
软件:MetaPhlAn