本章的内容基本上是概论和综述
1.1 微生物组研究简介
人类微生物组的概念,首先谈了microbiota和miceobiome两个词的区别,microbiota是指一个特定环境中的群落微生物物种,miceobiome是物种和他们的基因的集合。
2016年,估算成人结肠中的细菌数量为 3.8 x 10^13,细菌与人体细胞的比例是1:1,而不是先前估计的10:1。人类肠道中有多达 39 万亿个细菌细胞,是人类细胞数量的 1.3 倍,而且这些细菌编码的基因数量是人类基因的 100 多倍。(Sender R, Fuchs S, Milo R. Revised Estimates for the Number of Human and Bacteria Cells in the Body. PLoS Biol. 2016;14(8):e1002533. Published 2016 Aug 19. doi:10.1371/journal.pbio.1002533)
一代测序技术(Sanger测序):由一个叫Sanger的人发明的一种测序方式。利用了双脱氧核苷酸会终止PCR的原理。比如:一条序列为ATCGCTA,我们进行3次的双脱氧核苷酸,第一次加入双脱氧核苷酸A和正常的ATCG那么我们会得到下面两种序列,A、ATCGCTA。那么我们就知道碱基A在序列的第一个碱基和第7个碱基。同理运用双氧核苷酸T和C,就会得整个序列的对应碱基的位置BP信息。进而得到整条序列的ATCG的序列信息。特点:速度快,但是一次只能测一条单一的序列,且最长也就能测1000-1500bp。所以被广泛应用在单序列测序上。简单概括就是,一代测序只能测一条长度在1000bp左右的序列。准确性高(99.999%),测序成本高,通量低,影响大规模应用
二代测序技术(高通量测序):高通量测序技术,是为了改进一代测序通量过低的问题而出现的,解决了一代测序只能测一条序列的缺陷。一次能够同时测很多的序列。通过物理或化学的方式将DNA随机打断成无数的小片段(250-300bp),之后通过建库富集了这些DNA片段。接下来将建完的库放入测序仪中测序,测序仪中有着可以让DNA片段附着的区域,每一个片段都有独立的附着区域,这样测序仪可以一次检测所有附着的DNA序列信息。最后通过生物信息学分析将小片段拼接成长片段,边合成边测序。特点:一次能够测大量的序列,但是片段被限制在了100-150bp,通量很高,成本低廉,但是读长实在太短。由于是通过序列的重叠区域进行拼接,所以有些序列可能被测了好多次。由于建库中利用了PCR富集序列,因此有一些量少的序列可能无法被大量扩增,造成一些信息的丢失,且PCR中有概率会引入错配碱基。
三代测序:同样一次能测好多序列,但是测序的长度达到了10kb左右,并且不需要PCR富集序列,直接测序,这就解决了信息的丢失,以及碱基错配的问题。目前三代测序依然有一定的缺陷:三代测序技术依赖DNA聚合酶的活性,且成本很高,目前的错误率在15%-40%,极大地高于二代测序技术的错误率不过好在三代的错误是完全随机发生的,可以靠覆盖度来纠错(但这要增加测序成本)。三代测序主要有两种技术:PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术,这两种技术的测序读长都可以达到几十kb的级别,远远高于二代测序技术。这对于无参物种的分子生物学研究大有帮助,长读长对于基因组拼接、全长基因序列的获取提供了巨大的便利。三代其测序错误率相对于一代和二代还是高了很多,另外通量还是远低于二代测序,导致成本也是数倍于二代测序。
简单理解为任务:做1000张试卷。
一代测序:一个人一次只能做50张试卷,所以他无法做完这1000张。
二代测序:有500个人,每个人一次只能做10张试卷,且每个人随机做这1000张中的10张试卷,最后汇总这500个人做的试卷,去除重复做的把不同的统一起来,这样可以最大限度得完成1000张试卷。
三代测序:有30人,每个人一次能做100张试卷,之后的和二代一样,汇总结果
1.2 系统发育学简介
关于特种分类方面,涉及了系统发育学(Phylogenetics)的概念,系统发育学是研究个体或有机体群体(如物种或种群)之间的进化史和关系的学科。系统发育学丰富了我们对基因、基因组、物种和分子序列一般如何进化的理解。要了解人类微生物群的复杂性,重要的是要认识到物种之间的遗传和进化关系。作者从林奈的拉丁文双名法,说到了界门纲目科属种,以及在这之上的Domain(域)的概念,目前域这个好像用得不多,应该是分类水平太高了,古菌、细菌和真核生物是生命的三个域。
1.3 16S rRNA基因测序方法
16SrRNA基因,又称为被称为rDNA,是微生物中的保守基因。
16SrRNA测序优点:①16S基因的广泛存在性,方便。16S rRNA基因普遍存在,是核糖体翻译mRNA的必要组成部分。它存在于所有细菌和古菌中,而其他常用的标记基因并不是分布在所有生物中。16S rRNA基因用来描述细菌和古生菌的多样性是相对公正的。16S rRNA基因的优势在于它的分类覆盖率。②具有保守区和可变区,方便设计通用引物扩增片段并测序。16SrRNA基因包含高度保守的区域,适合通用PCR引物设计来扩增感兴趣区域。高度保守的特性表明,可以构建一棵生命树,将所有已知的细菌连接在一起。③有学者设计的优秀引物。④有较完备的数据库,常用参考序列和分类学数据库包括RDP、Greengenes和SILVA。⑤16S rRNA基因测序相对便宜、简单,分析流程成熟。
16S rRNA测序方法的局限性:①PCR有扩增的偏好性,例如在引物和扩增过程中,通过PCR的扩增序列rRNA标记可能会错过检测OTUS,这可能会导致群落中微生物多样性的大幅减少。②16SrRNA测序会过高估计多样性,由于测序错误和不正确组装的扩增片段(即嵌合体)造成的人工序列,OTU的分配不正确,以及16S位点在遥远的近缘类群之间转移,或大多数生物体中16S拷贝数的变异。此外,高估往往很难识别。③不能直接获得功能相关信息,扩增序列只能识别微生物群落的分类组成。它不能直接分析相关分类群的生物学功能。④无法用来研究新物种,扩增子测序只能分析那些分类学信息丰富的遗传标记已知且可以扩增的类群。它很难用于分析新的或高度分化的微生物,特别是病毒和真菌。⑤流程缺乏“金标准”,16SrRNA测序方法缺乏指导质量控制、过滤决策的黄金标准以及统计分析和建模。
传统上,OTU被定义为包含彼此相差不超过3%的序列。3%的标准也被用来定义一个物种,而5%的差异被用来定义属,20%的差异被用来定义门。通常将大于97%的相似性的序列分配给相同的物种,将95%的相似性分配给相同的属,将90%的相似性分配给同一科,将80%的相似性分配给相同的门。OTU一直被认为是基于16S序列方法的物种水平的分析单位。OTU被定义为具有超过97%的序列相似性。因此,OTUS有时被认为等同于物种。然而,OTU是否准确地定义了一个“独特的”序列仍然是一个生物信息学挑战。最近,肠道微生物组研究已经跨越OTU或物种水平进入菌株水平,并尝试菌株水平的解析,以研究物种内变异、其功能作用及其与宿主健康和疾病的关系。OTU定义的97%的相似性是一个系统发育距离。
.相比样本直接提取,放-80冰箱后检测,厚壁菌门/拟杆菌门的比例会增加。是厚壁菌门较多是革兰氏阳性菌,冻过后破壁率增加,更容易提取?
质量控制:1.识别和去除人工嵌合体序列(以前是根据参考数据库处理,现在大多云噪了吧),2.去除低质量和过短的序列,3.去除测序错误(也是降噪)
OTU聚类:两个方法分别是基于系统发生学的方法和基于相似性的方法。前者依赖于一个完备的数据库,算力消耗小(说实话如果样本量不是太多不会消耗太多算力,普通笔记本电脑足够啦),分类稳定,但是不能分析新物种。后者克服了这个缺点,相应的缺点就是耗费计算资源,相对慢,大内存(RAM),主流研究都是采用这个方法的。
为什么用OTU做分析单元,有几个聚类方法可以完成聚类OTU,平均邻接(average neighbour)算法是最具鲁棒性的。OTU是否代表一个独特地序列在生物信息学上还是以个难题,有以下几个原因:①这些等级的相似度阀值没有经历过严格的测试。②序列独立于参考数据库构建OTU,可能把不同的分类放在同一个OTU里。③只根据OTU估计样本多样性会夸大结果
1.4 宏基因组测序方法
宏基因组:全部宏基因组DNA的整体测序和分析。通过直接从微生物集合中提取和克隆DNA对微生物进行基因组分析,生活在共同栖息地的一组生物体的全部遗传信息。宏基因组分析有三个基本任务:分类学分析、功能分析和比较分析。这些问题也被称为“他们是谁?”、“他们能做什么?”、“如何比较他们?”
宏基因组测序的优势:①宏基因组测序中,一个群落中的总DNA被提取并独立测序,这产生了大量的DNA读数,这些DNA读数与样本中的不同基因组位置一致。大量可用的DNA读数,包括非微生物,可以从分类信息丰富的基因组位点(例如16S)和编码序列中取样,从而深入了解微生物群落结构和微生物区系基因组编码的功能。因此,在获得宏基因组测序数据后,微生物组研究人员可以同时探索微生物组研究的两个基本任务:他们是谁(其中存在哪些微生物)和他们能做什么(每个微生物做什么)?有机会全面描述一个群落,包括:(I)群落组成/结构,即分类多样性和物种相对丰度;(Ii)每个群落成员的遗传潜力,包括基因数量及其功能;(Iii)种内和种群内基因异质性。测序数据可以提供关于微生物群落中存在的生物组成和功能潜力的更丰富的数据,例如,群落的代谢潜力,并描述了未培养细菌的基因组多样性和功能。②宏基因组测序可能是无偏见的,因此它有更多的机会检测罕见和新的病毒。它还可以用来描述其他群落的丰富性,如分类群和代谢途径、植物微生物区系、蛋白质。所有这些都突显了该方法在检测尚缺乏核糖体基因的生物实体方面的有效性。③宏基因组测序方法具有根据基因含量区分常见物种菌株的能力,这是16SrRNA测序方法所不能做到的。
宏基因组数据的生物信息学分析
宏基因组包括两种分析策略:read-based (mapping) 和 assembly-based
read-based (mapping) approach 受到reference databases的制约,因为细菌的遗传多样性很高,即便是同一个菌种,它的不同菌株,其基因组的组成也是有相对比较大的差异的,那么在mapping的时候就会出现mapping不上的问题,使得mapping效率不够高;而且只能分析reference databases中有的物种,对于reference databases未收录的新物种,是无法进行分析的。
assembly-based approach 受到覆盖度的制约,因为组装时低覆盖度的区域是不会进行组装的,而是被丢弃,这样低丰度的细菌的信息就被丢弃了,反映在reads利用率上,就是往往reads利用率极低,往往低于50%。
组装:将短片段组装成更长、连续的序列(‘重叠群’)。将顺利进行下游生物信息学分析。有两种组装用于宏基因组学样品:基于参考的组装(联合组装)和从头组装。每种策略都倾向于应用于生物目的,并且需要不同的努力、时间和成本。选择使用哪一种是基于这些考虑因素。如果宏基因组数据集中有密切相关的参考基因组序列,则基于参考的组装效果较好;如果样本基因组存在较大的插入、缺失或多态性,使样本的真实基因组与参考基因组不同,则基于参考的组装性能较差。与基于参考的组装相比,从头组装通常需要更大的计算资源。例如,此程序集的机器需要更大的内存和运行时间。多长时间的测序读数适合组合宏基因组数据?一般说来,长的连续序列不仅有利于DNA片段的入库和分类以进行系统发育或分类学分配,而且还使注释变得容易。
组装挑战:①测序覆盖度不均匀:当进行单一基因组的组装时,其有一个前提假设:整个基因组的测序覆盖度是相对均匀的,这样就可以利用覆盖度信息来识别重复序列和鉴定测序错误和等位变异。而metagenome中,各个组成基因组的覆盖度取决于它们的物种丰度,低丰度物种的基因组就会由于总体测序深度不够而使得最终组装出来的基因组是支离破碎的。使用更短的 k-mer 有助于低丰度基因组的组装,但是这会使得图中重复 k-mer 的频率大大增加,降低了组装的准确性。这需要组装工具在考量低丰度物种与获得高丰度物种更长更准确的contig之间进行权衡,即选择合适的 k-mer :Meta-IDBA:使用多重 k-mer;IDBA-UD:基于Meta-IDBA的升级,对测序深度不均匀数据的组装过程进行了优化②同种细菌不同菌株的干扰:同种细菌的不同菌株,它们的基因组组成很相近,常常就是一个碱基的变异或者整个基因/操纵子的丢失,当进行 de Bruijn 图组装时,就会在这些差异的位置出现分叉,组装工具在遇到这些分叉时,常常会停在这些位置,从而导致一个个不连续组装片段的产生。Meta-IDBA:将图依据其拓扑结构拆分成各个元件,每个元件代表各个亚种的共有区域。
解决计算能力与内存不足的策略:使用分布式 assemblers,例如 ABySS、Ray,将metagenome的组装图分割成相互连接的部分,然后在各个部分内部分别进行相对独立地组装,即分而治之的策略。
Binning:Metagenome 组装完成后,我们得到的是成千上万的 contigs,我们需要知道哪些 contigs 来自哪一个基因组,或者都有哪些微生物的基因组。所以需要将 contigs 按照物种水平进行分组归类,称为"bining"。
一个很容易想到的策略就是,将组装得到的片段与已知物种的参考基因组进行比对,根据同源性进行归类。然而目前大多数的微生物的基因组还没有测序出来,因此限制了这种方法的可行性。目前主流的 bining 策略利用的是 contigs 的序列组成特点。
根据核酸组成信息来进行binning:k-mer frequencies 依据:来自同一菌株的序列,其核酸组成是相似的
例如根据核酸使用频率(oligonucleotide frequency variations),通常是四核苷酸频率(tetranucleotide frequency),GC含量和必需的单拷贝基因等
优势:即便只有一个样品的宏基因组数据也可以进行binning,这在原理上是可操作的
不足:由于很多微生物种内各基因型之间的基因组相似性很高,想利用1个样品的宏基因组数据通过核酸组成信息进行binning,效果往往并不理想或难度很大。利用核酸组成信息进行binning,基本上只适合那些群落中物种基因型有明显核酸组成差异的,例如低GC含量和一致的寡核苷酸使用频率
根据丰度信息来进行binning 依据:来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的。
原因:比如,某一细菌中有两个基因,A和B,它们在该细菌基因组中的拷贝数比例为 A:B = 2:1,则不管在哪个样品中这种细菌的数量有多少,这两个基因的丰度比例总是为 2:1
优势:这种方法更有普适性,一般效果也比较好,能达到菌株的水平
不足:必须要大样本量,一般至少要50个样本以上,至少要有2个组能呈现丰度变化 ( 即不同的处理,不同的时间,疾病和健康,或者不同的采样地点等 ) ,每个组内的生物学重复也要尽量的多
对于像质粒这样的可移动遗传单元 (mobile genetic elements (MGEs)),由于其复制独立于细菌染色体,则同一种细菌的不同个体,该质粒的拷贝数可能存在差异,使得无法用丰度信息进行有效地bining
同时依据核酸组成和丰度变化信息:将核酸组成信息和丰度差异信息创建一个综合的距离矩阵,既能保证binning效果,也能相对节约计算资源,现在比较主流的binning软件多是同时依据核酸组成和丰度变化信息
根据基因组甲基化模式依据:不同的细菌,其基因组甲基化模式不同,平均一种细菌有3种特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平转移是细菌甲基化组多样性的驱动因素。虽然 MGEs 在不同个体的拷贝数不同,但是都存在,因此具有相同 MGEs 的细菌个体,其总遗传物质(包括染色体和 MGEs )都会受到相同的MTase的作用而得到相同的甲基化模式。
从原始的clean reads,还是从组装成的contig,还是从预测到的gene,都可以。根据基于聚类的序列类型的不同,暂且分为reads binning, contig binning和 genes binning
比较这三种binning的优劣:contig binning(由于核酸组成和物种丰度变化模式在越长的序列中越显著和稳定,基于contig binning效果可能更好)、reads binning(基于reads binning的优势是可以聚类出宏基因组中丰度非常低的物种)
考虑到在宏基因组组装中reads利用率很低,单样品5Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,肠道样品或极端环境样品组装reads利用率一般能达到30%,这样很多物种,尤其是低丰度的物种可能没有被组装出来,没有体现在gene 或者contig 中,因此基于reads binning 才有可能得到低丰度的物种
genes binning:应用非常广泛,原因可能是(1)基于genes丰度变化模式进行binning可操作性比较强,宏基因组分析中肯定都会计算gene丰度,一般不会计算contig丰度,gene丰度数据可以信手拈来;(2)基于genes binning有很多可参考的文献,过程也并不复杂,可复制性强;(3)对计算机资源消耗比较低
总体来说应用最广泛的就是基于genes binning 和 contig binning
Genes binning的一般流程:在宏基因组做完组装和基因预测之后,把所有样品中预测到的基因混合在一起,去冗余得到unique genes集合,对这个unique genes集合进行binning,主要是根据gene在各个样品中的丰度变化模式,计算gene之间的相关性,利用这种相关性进行聚类。聚类过程类似于K-means聚类:随机选择几个seed genes作为诱饵,计算其他基因丰度分布模式与seed genes的相关性,按照固定的相关性值PCC>0.9,将它们归属于不同seed genes所代表的类,然后在聚好的类内重新选择seed genes,进行迭代,最终聚类得到一个个基因集合,较大的集合(超过700个基因)称为 metagenomic species (MGS),较小的集合称为 co-abundance gene group (CAG)
Binning局限性①比如对核酸组成信息的利用,开发得就不够充分,四碱基使用频率因简单而被广泛使用和接受,但现在已有研究表明k-mer丰度信息也是很好的种系特征,同时越长的k-mer含有越多的信息,还有基因和参考基因组间的同源关系也是有价值的种系信号,但这些都还没有被自动化的binning软件整合②对于参数设置是很敏感的,且只有有限的可调整的参数,想要获得高质量的bins经常需要手动调整
基因组和宏基因组功能注释:要获得分类组成之外的见解,需要对序列进行注释。根据研究的目的,可以对组装的重叠群或未组装的reads或短的重叠群进行注释。前者称为基因组注释,后者称为宏基因组功能注释。要成功注释基因组,重叠群需要足够长。
基因预测与功能注释:宏基因组序列的宏基因组功能注释通常有两个不相互排斥的步骤:基因预测和注释。基因预测是指识别样本DNA上编码的感兴趣基因、蛋白质和RNA序列的过程,即将序列标记为基因或基因组元件。宏基因组数据集的功能注释,是指定假定的基因功能和分类邻域。它非常类似于基因组注释,并且依赖于预测的基因与现有的、先前注释的序列的比较。宏基因组功能注释面向整个群落。因此,用于基因组注释的工具的使用有限。有许多专门开发的用于元宏因组功能注释的工具。
有许多工具可用于基因预测和功能注释。然而,只有不到一半的宏基因组序列可以被注释。因为:①基因预测,特别是功能注释依赖于与现有数据库的比较。然而,宏基因组编码序列的长度较短,进化距离较远,导致与已知序列的相似性较低。此外,还没有现有的数据库来比较与新基因的相似性。因此,低相似性和序列错误的存在都阻碍了同源物的鉴定。因为新基因没有现有数据库、基因预测和功能注释中的相似性将完全忽略它们。②蛋白质的预测和注释比较复杂。蛋白质通常是碎片化的,缺乏邻里关系。注释由短读方法(如454/Roche)产生的蛋白质甚至更加复杂,因为大多数读取只包含蛋白质的一部分。③如果基因功能在不同的群落中有不同的表现,就不能准确地理解基因功能的生物学重要性。
宏基因组数据分析挑战:与定向扩增研究相比,宏基因组数据的生物信息学分析仍然具有挑战性。①宏基因组数据的处理,包括组装、入库、基因预测和注释,有许多技术挑战。②宏基因组测序产生的数据集又大又复杂,包含不想要的宿主DNA,并且容易受到污染。这些使得生物信息学分析非常复杂。例如,庞大而复杂的数据使得很难确定reads来自哪个基因组,造成计算问题,挑战序列比对。因此,不需要的宿主DNA需要发展分子和生物信息学方法来过滤。识别和移除受污染的宏基因组序列尤其有问题,需要特殊的工具来识别和过滤。③庞大的宏基因组数据集对识别群落之间显著不同的类群构成了更大的挑战。④全基因组测序的成本仍然很高,特别是在复杂的社区中,或者当宿主DNA远远超过微生物DNA时。
1.5 生信数据分析工具
两种分析16SrRNA测序数据的工具:QIIME和mothur。用于分析从原始序列读取到的16S rRNA基因测序数据生成OTU/丰度表,实现多个样本的比较,并使用Silva 16S rRNA基因参考数据库。
QIIME:QIIME是一个开源的生物信息学工具,旨在为分析16S rRNA数据提供。该软件是为分析微生物生态群落而设计的,可用于细菌、古生菌、真菌或病毒序列数据。QIIME分析通常从来自任何测序技术的原始序列数据(FASTA格式)开始,例如Illumina HiSeq、MiSeq或454焦测序。QIIME脚本主要包装其他软件包。它被实现为一组命令行脚本,旨在通过发布质量的图形和统计信息从原始序列数据和样本元数据中获取用户数据。它可以通过多种方式分析高通量数据。
mothur:“Mothur”中使用了与QIIME相同的质量控制参数。它是一个开源软件包,是一个命令行计算机程序,用于分析来自微生物群落的序列数据。该软件包经常用于未培养微生物的DNA分析,并提供从原始序列到生成可视化工具的能力,以描述alpha和beta多样性。在任何种类的系统发育或基于基因型的群落分析中,将序列分组(聚类)为相关序列集合(称为基因型)是第一步。最常见的是,Mothur用于对序列进行聚类,并且Mothur能够处理从几种DNA测序方法产生的数据,所述DNA测序方法包括454焦糖测序、Illumina HiSeq和MiSeq、Sanger、PacBio和IonTorrent。因此,MOTHUR是分析16S rRNA基因序列最常用的生物信息学工具之一。
用QIIME和mothur分析16S rRNA序列数据
在分析16S rRNA基因序列数据时,QIIME和Mothur有许多共同,如质量控制、聚类、分类或指定分类。Mothur有一个独特的步骤,其中所有序列都必须与模板数据库比对,并且从分析中移除在相同空间中不重叠的任何序列。通常,QIIME和MOTHUR通过以下步骤进行16SrRNA基因序列数据分析。
Step 1:质量控制或质量过滤。16S rRNA基因分析一般从数据预处理开始,去除或过滤少量序列。QIIME和mothur可以进行质量控制或质量过滤,这是分析必不可少的步骤。
Step 2:选择OTUS并分配代表性序列。:下一步是OTU聚类:选择OTU。QIIME中最常用的方法是一个名为uclust的程序。基于用户定义的序列相似性水平(例如,97%近似物种水平的系统类型)对OTU进行分组。uclust和Mothur纯粹基于序列相似性执行OTU聚类。OTU挑选,然后通过改变序列相似性阈值,将代表性的OTU序列分配到分类学水平(从头开始OTU挑选),例如科、属和种。然而,为了准确地将序列分配到分类水平,需要比较实验样本和参考数据之间的基因组区域,这被称为基于参考的OTU聚类(或挑选)。通过将OTUS与参考数据库进行比较来进行分类识别,并为每个OTU分配唯一的识别号。
Step 3:构建OTU或分类表。:OTU或分类表可以通过QIIME或Mothur获得。OTU表按观测矩阵采样,通常行有OTU,列有样本;分类表通常行OTU,列有分类:属、门、纲、目、科和属。由于各种原因,OTU的数量经常会被夸大。因此,为了确保报告的OTU数量正确,通常需要对获得的OTU表进行过滤。16SrRNA基因测序数据的生物信息学分析以OTU表和/或分类表结束。然而,开发的许多工具不仅具有执行生物信息学分析的能力,而且还具有直接进行基本统计分析的能力。例如,QIIME还可以计算α和β差异,执行统计测试,以及可视化数据。
1.6总结
本章中,首先简要介绍了微生物组的定义、概念、系统发育学和宏基因组学。然后,回顾了DNA测序;并重点介绍了16S rRNA测序和宏基因组测序两种方法。此外,还介绍了两种最常用的生物信息学数据分析工具:QIIME和MOTHUR。阅读完本章后,应该对微生物组研究是如何进行的,微生物组数据是从哪里来的,以及如何来的有了一些基本的理解。