第二章微生物组数据的结构和特点

2.1 微生物组数据

微生物组数据是通过16SrRNA基因测序和宏基因组测序产生的。生物信息学工具包括QIIME和MOTHUR。例如，在对原始序列进行预处理之后，有两种方式可用于生成可分析的微生物组数据。16S序列以依赖于分类学的方式被映射到现有的系统发育树，或是以独立于分类的方式根据相似性聚集到OTU(操作分类单元）。第一种方式使用现有的系统发育树结构来生成微生物组数据集，而第二种方式根据相似性水平对序列进行聚类，然后将其分配到不同的分类水平。在第二种方式中，根据序列相似性将来自扩增片段的reads聚类到OTU中，然后将OTU分层地分配到在界、门、纲、目、科、属和种等级的分类树，使用可用的方法进行准确的分类指定，包括BLAST，the online Greengenes和RDP分类器，以及基于系统发育树和基于多聚体聚类树的方法。比较了这些方法并推荐使用Greengenes或RDP分类器。分类分配产生的最终数据是分配给已知分类树节点的读取计数表(细菌分类群)。根据读取计数量化的读取计数或相对丰度表可用于分析和模拟微生物组组成。

2.2 微生物组数据结构

微生物组数据以系统发育树的形式构建：微生物组数据的一个独特特征是系统发育树结构。一个群落中的细菌分类群并不是随机分布的，它们通常不仅相互依赖，而且还存在着细菌间的系统发育关系，这为研究细菌分类群之间的进化关系提供了解：一个系统发育树。系统发育树已经被定义为生物学中无处不在的图形，它描述了一组物种之间的进化关系或将所有细菌物种联系在一起。它由多个层次组成。系统发育树结构表明，不同微生物之间的类群关系不仅是分类上的，而且是进化的。树上距离较近的类群往往对环境因素有相似的反应或具有相似的生物学功能。

样本特征列联表：根据研究领域和用于生成高通量数据的生物信息学工具的不同，微生物组研究和基因组学通常都有一种数据结构，称为样本特征列联表。计数表通常以行为特征，以列为样本。一般而言，“特征”指的是OTU、基因、分类水平、序列变体、转录本、变量等中的任何一个。“样本”也称为复制、主题、对象、描述符等。在其他字段中，数据矩阵的行可以是主题，而列可以是变量。在不同的研究领域，行和列可以有不同的名称；例如，在生态学中，主要数据结构是逐个物种的矩阵，其中包含丰度、相对丰度或在不同采样点观察到的物种(或其他分类单元)的存在。在微生物组文献中，研究人员经常使用OTU、分类单元、属和种来指代这些特征。因此，微生物组研究的主要数据结构是类群表或OTU表。分类群(或OTU)表具有与初级生态数据相同的数据结构，但具有多个细菌分类群的系统发育级别。

微生物组、基因组学和其他高通量数据研究中使用的逐个样本的特征列联表

一些统计程序可能更喜欢数据采用逐个特征样本(Taxon/OTU)的格式。在这种情况下，需要在分析之前调换行和列。在本书中，倾向于使用逐个样本的分类单元或逐个样本的分类单元来指代微生物组数据结构。但是，当按样本表在不同的上下文中使用时，例如在不同的程序和包中，也使用不同的名称来标记行和列。注意到，我们使用它们是可交换的。我们在表2.1中总结了逐个样本的特征列联表的一些行名和列名。

OTU Table ：下表展示了OTU表。这通常是在处理OTU后从16S rRNA基因测序中得到的结果。该表是从我们发表的论文中使用的数据集中提取的。该表记录了基于16S rRNA测序的4个提取样本中10种细菌的计数。表2.3是OTU表的另一个版本。OTU表中的每一行对应于最后一列中包含分类单元信息的OTU，而其他每一列对应于一个样本。

16S rRNA测序的OTU表

OTU表的另一个版本称为排序OTU表

Taxa Count Table：下表用于说明分类群计数表的外观。该表是从论文中根据16SrRNA测序使用的相同数据集中提取的，记录了4个提取样品中10个属水平的细菌计数。表中的每一行对应于一个属，而每列记录对应于一个样本的reads数。门、纲、科、目和种的级别具有相同的数据结构。

16S rRNA测序中的类群示例

Taxa Percent Table：下表说明了分类百分比表。顾名思义，它具有相同的数据结构，行名和列名与分类群计数表中的名称相同。每个单元格中的值只是通过将分类群计数表中的reads 数除以样本中该分类单元的reads总数来计算出来的。

16S rRNA测序的类群百分比表示例

2.3 微生物组数据特征

微生物组数据有几个特点。微生物群落计数数据(OTU计数、类群丰度)具有自然约束性、高维、稀疏性，在OTU(分类群)表中含有较大比例的零计数，不同OTU(分类群)之间具有复杂的协方差和相关结构，且过度分散，组内异质性较大。

微生物组数据组成：微生物组计数数据(来自16S rRNA测序的OTUS或分类群丰度数据)由两个关键几何属性组成。首先，所有组件值的总和(有时称为库大小)是采样过程的产物。文库的大小可能会受到许多因素的影响，例如技术上的可变性或特定于实验的丰度的差异。其次，成分数据是成比例的，即分量值之间的距离只有成比例才有意义。构成要素是非负和合一的。

微生物组数据是高维的和不确定的：微生物组序列数据集是具有数万个不同类别的高维数据集。它们不能鉴定，分类群或OTUS的数量远远大于样本的数量。例如，在我们的小鼠肠道微生物组数据集中，共有8份样本(5份来自VDR锁定，3份来自野生型小鼠)。然而，在属级有248个细菌。高维可能导致大p小n问题，并对微生物组数据的分析提出统计挑战。

微生物组数据过于分散：分类群计数数据，无论是来自微生物组研究中扩增子测序实验的分类reads或OTU计数，还是来自RNA测序实验的差异表达数据，通常都是过度分散的，这表明读取计数的方差大于预先假设的典型多项式回归(即泊松回归)预测的方差。微生物组数据的过度分散问题是由于以下事实：(1)DNA或RNA测序的文库大小相差很大，(2)在所提出的普通多项式回归模型下，OTU(分类群)计数比例的变化比预期的要大。

微生物组数据稀疏，有许多零点：在微生物组数据中，稀疏性被认为是在样本中缺少许多分类群，并且在大多数实验中都会产生零。微生物类群丰度，特别是分类水平较低或OTU计数较低的类群丰度往往有许多零和右偏。根据零点的来源，经常涉及两种零点：由于采样变异性而导致的采样零点和考虑模型下高于和超过预期零点频率的结构零点。抽样零也称为计数零。计数用于记录事件发生的次数。计数数据是分类数据，其中计数表示落入若干类别中每一类别的物品数量。如果事件不是在特定情况下发生，但可能在另一种情况下发生，则会出现计数零。这种类型的零是由于采样问题造成的，因为可能由于样本大小有限而无法观察到分量，或者由于技术限制而无法检测到分量。换句话说，零是由于样本不够大。未观察到的正值可以通过更多的试验或不同的抽样设计来观察。因此，它们也被称为采样零点。结构性零，基本零、真正的零。或绝对零度在给定的观察中被调用，当该部分没有正确定义或由于某些确定性原因根本不能存在时。它的意思是“一个真正为零的部件，而不是仅仅因为实验设计或测量仪器没有记录为零而记录为零的部件已经足够灵敏，能够检测到该部件的痕迹“。例如，真正代表特定样本中没有分类群的零属于结构零。在微生物组文献中，除了取样和结构零之外，还有四舍五入的零。连续变量大多出现四舍五入的零。这是由于抽样不足造成的。实际上，它不是真正的零，而是表示低于特定最大可能舍入误差或低于检测值或限值的观测值。微生物组数据中存在许多零的原因可能是由于结构本身和采样(例如，生物和技术的可变性)。零可能来自结构本身。分类群或OTUS丰度经常被夸大为零，因为分类群(OTUS)是依赖于主题的，每个主题都有一个独特的分类群/OTUS组成。在样本中观察到分类单元或OTU的零计数是因为分类单元(OTU)在物理上或生物上在主体中不存在(结构上的零)。零计数是由于真正发现了低丰度的分类群，这些分类群只存在于少数样本中。例如，标记基因研究中最多的分类群(OTU)很少。因此，它们没有出现在大量的样本中。采样导致在给定实验中未观察到或未检测到的分类群(OTU)。首先，在大多数实验中，零可能来自测序伪像和样本之间高度可变的测序深度。其次，当测量给定的组件时，也会出现零。例如，当受影响的变量出现概率低且计数总数也相对较低时，分量可能低于检测限值。在数据处理中也会出现零。例如，微生物组数据通常通过将观察到的计数除以reads总数来转换成比例的组成矢量。由于稀有类群的存在，如果已知的参考序列不同或使用不同的归一化方法，在比对和归一化过程中可能会出现许多计数为零的条目。

2.4 微生物组数据过度分散和零膨胀示例

下表是过度分散和零膨胀分类群(OTUS)丰度数据的示例。物种级别的数据来自对32名未怀孕和22名孕妇的阴道微生物区系的病例对照纵向研究，这些妇女在足月(38-42周)分娩。物种丰度数据有许多零。0的比例最低的是乳杆菌，占14.44%，最高的是无尾链球菌，占73.78%。这28个物种的平均给出了58.57%的零。对于每个物种，方差远远大于其平均值，表明数据中存在过度离散性。

物种分布(OTUS)

2.5 微生物组数据模型的挑战

具有系统发育树结构的微生物组数据是高维的，不确定的，过度分散的，通常是稀疏的，有许多零点。对这些类型的特征数据进行建模给传统的统计工具带来了巨大的挑战。统计学上的挑战包括①如何合并分类群/OTUS系统发育树信息；②如何降维并解决大p和小n问题；③如何处理稀有类群(OTUS)；④如何对过度分散和零膨胀的微生物组数据进行建模。例如，人类肠道中细菌的丰富程度具有较低分类水平上越来越多的零和右倾的特点。零值和小值是稀疏性的一个主要来源。

稀疏性是16S rRNA序列数据分析中的一个挑战，因此，多个零点的稀疏性问题是微生物组数据分析中的一个中心课题。首先，具有多个零的稀疏性给参数模型带来了关键挑战，以便为有意义的推断做出准确的方差估计，即使这样的估计在主要由零组成的样本上基本上也是不可能的。例如，当分类群稀疏且有许多零时，分类群或OTUS丰度的分布和分类群或OTUS发生概率的分布都是倾斜的，这导致零膨胀。由于零膨胀，带过多零点的类群丰度不能用任何标准参数模型来正确分析，例如正态分布、二项分布、泊松分布、负二项分布和贝塔分布。其次，具有多个零点的稀疏性也使得非参数方法失效。非参数方法基于秩或中值；因此，通常对异常值不敏感或更“稳健”，避免做出可能被稀疏样本歪曲的方差估计。在多个分类单元零点多、可用样本少的情况下，用非参数方法对低丰度分类单元进行推断能力不足。综上所述，传统的参数模型和非参数方法都不适合分析零点较多的稀疏微生物数据。因此，分析含有过多零点的稀疏微生物组数据是一个真正的挑战。不考虑过多的零点可能会导致参数估计有偏差和误导性推断。

2.6 总结

本文总结了微生物组数据的结构和特点。给出了OTU(分类群)表，提供真实的微生物群结构和分布情况。微生物组数据是成分组成的、高维的、不确定的、过度分散的，而且通常是稀疏的，零点过多。这些功能挑战了标准的统计工具，使得参数模型和非参数模型都无效。

第二章 微生物组数据的结构和特点