3.4 微生物数据组成分析

早在1897年，皮尔逊就警告说，在器官测量中使用两个绝对测量值的比值，可能会形成“伪相关”。自1920s以来，地质学的研究人员已经知道，使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述，并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中，对数比变换方法被地质学、生态学等领域的统计学家和研究人员广泛接受，因为通过对数比变换，可以消除组成数据的样本空间（单纯性）受约束问题，并将数据投影到多元空间中。因此，所有可用的标准多元技术都可以再次用于分析成分数据。

微生物组成的数据分析方法和工具是最近才得到发展的。方法的开发聚集于解除组成的限制：样本中的所有微生物相对丰度之和为1。约束导致组成数据驻留在单纯形而不是欧几里德空间中。为了恰当地比较微生物的组成，从样本中生物分类的相对丰度（而不是样本中生物分类的总丰度）推断出生态系统中的总分类比（OTU）。

为了避免伪相关，Lovell等提出了比例度量用于分析相对数据，因为比例是对相对数据的适当相关性分析。Erb和Notredame进一步提出了部分比例，这是从部分相关中采用的定义。为了确定物种的比例丰度，Erb等人提出了差分比例统计（2017）。它等同于分类比率的单向方差分析。

比较微生物组组成的最具代表性的研究方法是类方差分析(ALDEx和ALDEx2)。从根本上说，这两种方法都使用对数比变换技术来转换微生物组数据，从而消除了成分限制，使标准的多变量技术适用于分析。

ANCOM是一个统计框架，它的开发是为了解释在生态系统水平上检测微生物平均类群丰度差异时的成分限制，以减少错误发现。它是以成分对数比为基础的。作者将ANCOM与ZIG和t检验进行了比较，并与模拟研究和实际数据进行了比较。他们得出结论，ANCOM在大幅降低FDR和提高power方面优于ZIG方法。ANCOM很有吸引力，因为它不做分布假设，可以在线性模型框架中实现，以调整协变量和模型纵向数据。

与ANCOM相比，ALDEx和ALDEx2更全面。它们几乎适用于由高通量测序产生的任何类型的数据。它们适用于多种不同实验设计的比较。统计分析包括双样本配对t检验、方差分析和非参数检验，如Welch‘s t检验、Wilcoxon秩和检验、Kruskal-Wallis检验等。他们还可以选择使用Benjamin-Hochberg方法调整p值。

3.5 微生物组研究中的纵向数据分析和因果推断

微生物群天生就是动态的，由与宿主和环境的相互作用驱动，并随着时间的推移而变化。因此，纵向微生物组数据分析提供了关于微生物组与宿主和环境相互作用的丰富信息。

纵向研究的显著特点是在研究过程中对受试者进行重复测量，从而可以直接评估响应变量随时间的变化。纵向研究还捕捉到个体间的差异(个体间的异质性)和受试者内部的动态变化。它提供了研究复杂的生物学、心理学和行为假说的机会，特别是那些涉及随时间变化的假说。纵向分析的优势也适用于微生物组数据。通过干预，如饮食，以及由微生物群引起的慢性病的发展和持续，将加深我们对微生物群短期和长期趋势的了解。

3.5.1 标准纵向模型

纵向研究应用于不同的领域，比如：婴儿肠道菌群和1型糖尿病的关系。广义估计方程（GEEs）和广义线性混合效应模型（GLMM）是纵向环境中最流行的两种范式。因此，GEE和GLMM最有可能用于微生物组研究中。例如，这些模型用于分析孕妇和非孕妇之间微生物组组成和稳定性的差异。ZINB混合效应模型用于分析食管炎中人的微生物群序列数据。

通常，为了解决分类学丰度计数数据的过度分散和零膨胀特征，选择了NB或零膨胀NB分布来模拟具有随机效应的每个系统型的计数数据，以解决纵向数据设置下的相关性。重要的是，我们需要比较组间微生物的相对丰度，而不是绝对计数。通过向NB分量的线性预测函数添加偏移项，即读取总数的对数，将绝对计数转换为相对丰度，以说明每个样本的读取次数可变。

为了将分类单元的丰度视为连续变量并在分类单元的丰度和协变量之间建立趋势（线性关系），使用了在受试者内协方差结构具有自回归的线性混合效应模型（La Rosa等人，2014）。但是，此方法未明确处理数据中的零填充和过度分散。

3.5.2 新开发的过分散和零膨胀纵向模型

零膨胀高斯混合模型为了解决零膨胀和过度分散的问题，同时识别与协变量相关的细菌分类群，已经提出了几个统计模型。Paulson等提出了零膨胀高斯(ZIG)混合模型。混合模型的设计使用累积尺度归一化技术来校正总和归一化在差分丰度评估中引入的偏差，以及零膨胀高斯分布混合模型来解释由于微生物群落的欠采样而导致的差分丰度测试中的偏差。该模型寻求直接估计由于采样不足或从计数分布(微生物群落中没有分类特征)的检测分布产生观测到的零的概率。Zig型混合模型对数变换16S rRNA测序数据的读数，然后使用经验贝叶斯过程估计缓和方差。由于样本中的零计数，缓和的方差解释了偏差。这种Zig型方法被应用于一个纵向微生物组研究的数据。它在metagenomeSeq BioConductor包中实现。作者使用模拟研究和实际数据将ZIG与现有工具进行了比较，得出结论：ZIG优于该领域中广泛使用的其他统计方法，如Kruskal-Wallis检验，并且ZIG对数据产生了更精确的生物学解释。然而，经验贝叶斯方法在纵向环境下的扩展被认为是不清楚的。负二项混合效应和零膨胀负二项模型的推广在纵向设置内，负二项混合效应模型(NBMM)是用于检测微生物群与宿主环境/临床因素之间的关联的统计模型，用于相关微生物群计数数据。NBMM以NB模型为基础，在固定效应中加入随机效应，以考虑样本间的相关性。NBMM通过NB的过度分散参数处理过度分散并改变读取总reads数。标准NB模型与NBMM的不同之处在于NBMM采用迭代加权最小二乘(IWLS)算法进行拟合。然而，这些模型不能处理零膨胀。为了解释过度分散和多余的零，相同的作者提出了一种ZINB回归方法，用于识别两个或多个群落之间的差异的类群。建议的ZINB使用两部分混合：NB部分用于解释过度分散，Logistic回归部分用于解释多余的零。标准ZINB模型和这种ZINB扩展模型的区别在于后者使用了IWLS和EM(期望最大化)算法。在该方法的作者进行的模拟研究中，ZINB在基于AUC(曲线下面积)估计的各种稀疏场景中的性能优于DESeq、Edger和metagenomeSeq。真实数据也表明，这一结果与之前的研究一致。贝叶斯半参数广义线性回归模型Lee和Sison-Mangus提出了一个贝叶斯半参数广义线性回归模型来研究微生物丰度和演替变化与宿主环境/临床因素之间的关系，即物理和生物因素。该模型在广义线性回归模型的基础上，利用稀疏诱导先验--拉普拉斯先验，改进了对OTUs所代表的微生物物种平均丰度协变量效应的估计。类似于Zhang等人的NBMM，该方法指定Nb分布，并假定OTU计数的过色散参数。与其他方法相比，例如在Romero等人中。(2014)和张等(2017)的方法不会在建模前对OTU计数进行归一化以调整样本总数的差异。相反，它联合分析所有OTU，同时执行对OTU丰度的协变量效应的归一化和估计。具有随机效应的零膨胀Beta回归模型在纵向微生物群数据设置下，Chen和Li提出了一个具有随机效应的两部分零膨胀Beta回归模型(ZIBR)来检验微生物丰度与临床协变量之间的关系（Chen和Li 2016)。ZIBR将微生物组数据视为成分。ZIBR的目的是解释微生物组组成数据的三个特征：高度倾斜，有界在[0，1）内，在考虑同一对象上重复测量的观测结果的相关性时，通常以许多零来稀疏。第12章我们将介绍该方法的细节，并将其应用于第三章中的一个真实的纵向微生物组数据。基于零膨胀负二项模型的微分分布分析Chen等提出了基于ZINB(零膨胀负二项)回归模型的微生物组数据差异分布分析的一般框架。首先，基于计数的ZINB模型已被测试为最适合于零膨胀和过度分散的数据。这也被认为在统计学和生物学上更适合于微生物组数据。其次，零膨胀模型在生物学上更具解释力，因为与栅栏模型相比，混合观测零点(即“结构零点”和“采样零点”)的假设与观察到的人类微生物群数据更一致。以前的零膨胀模型把离散度看作是所有协变量上的一个公害和公共参数。相反，所提出的方法允许协变量相关的离散度：离散度依赖于协变量，如疾病状况，并处理异常值以提高零膨胀模型的稳健性。为了识别相关的微生物类群，该方法还可以进行流行度、丰度和分散参数的综合测试。混合效应Dirichlet-Tree多项式(DTM)模型唐和尼古拉提出了一个混合效应的DTM模型，该模型可以方便地使用经验贝叶斯收缩来增强微生物比例推断。它结合了微生物组研究中的协变量和相关的分类群。在考虑协变量时，侧重于预测，而不是比较。建议的混合效果DTM模型有三个特点：首先，使用混合效应的Dirichlet-tree多项分布来提高表型-微生物组关联性的检测和预测的准确性。利用DTM自然结合测序深度、过度分散和容易适应局部信号的优点。其次，基于混合效应DTM模型去除了不需要的协变量效应，并采用多尺度经验贝叶斯收缩来改进微生物比例的估计。第三，使用随机森林结合收缩估计器(解释变量)作为预测工具，例如，从微生物群组预测重量。

3.5.3 基于回归的时间序列模型

动态微生物群可以通过基于回归的时间序列模型进行分析，即将类群的相对丰度、肠道微生物区系随时间的生态多样性作为一系列观测(因变量)，将时间的函数和其他协变量作为自变量。例如，我们可以使用回归分析来评估人类阴道微生物群在月经周期和其他协变量中对时间的依赖性。自回归(AR)模型用于评估不同细菌分类群的趋势；无限混合模型用于处理微生物群计数。时间序列聚类法时间序列聚类法是根据OTU的时间剖面相似性将其分组在一起的方法。它采用假设的OTU水平分析方法，而不是平均OTU。例如，MC-TIMME(微生物计数轨迹无限混合引擎)就是一种发展起来的时间序列聚类算法。非参数贝叶斯技术被定制为从微生物组数据中自动推断时间模式，然后将数据集中的OTU分配给所推断的时间模式。动态系统理论模型已有几种微生物时间序列的自回归模型被提出。最受欢迎的是Lotka-Volterra(LV)车型。Stein等人。将动态系统模型应用于微生物组时间序列数据。该模型基于广义Lotka-Volterra(GLV)非线性微分方程，假设生态系统中物种的生长是密度受限的，并受到系统中其他物种的正或负调控。自回归模型还利用GLV方程分析了OTUS相对丰度的动态变化。时间依赖广义加性模型另一种动力系统理论模型是依赖于时间的广义加性模型(GAMS)。GAMS的框架是非参数的，通常更适合在系统先验信息很少的情况下使用。GAMS在生态时间序列数据分析中得到了广泛的应用。为了捕捉人类婴儿肠道微生物区系的动态，Trosvik等人。应用GAMS对微生物区系时间序列数据进行分析。非自回归微生物时间序列模型吉本斯和他的同事认为，人类肠道微生物群有两种动态机制：外部环境波动和内部过程。外部环境波动是非自回归的，由外部因素(如饮食)驱动。换句话说，大多数生物体的功能是一种稳定的、均值回归的行为，在个体之间承载着固定的能力和丰富的类群。当系统从更大的冲击中恢复时，自回归动态偶尔会发生。然而，外部的非自回归波动决定了人体肠道微生物群落的动态。微生物群是一个动态稳定的系统，不断受到内力和外力的冲击，尽管肠道生态系统经常被破坏，将微生物群推回到保守的稳定状态。Gibbons和他的同事在肠道微生物时间序列中采用了非自回归方法，而不是专注于自回归模型(例如，Lotka-Volterra)。他们使用向量自回归模型分别对自回归和非自回归成分进行建模。VaR模型灵活易用，适用于平稳多变量时间序列的分析。该模型假定时间序列过程具有自相关、互相关和序列不相关或独立噪声。此外，他们使用连续的方法来表征宿主内部的动态，而不是采用群落状态聚类的方法。综上所述，时间序列方法在近几年得到了越来越多的应用。这些方法特别需要用适当的分析工具仔细设计和分析。否则，结果可能会极具误导性。首先，我们不能忽视微生物组数据的时间性这一因素。例如，我们不能将时间序列数据视为静态时间点，并通过简单的统计过程(如t检验)对其进行检验。我们不能将这些时间点作为独立样本对待，这可能会高估不同群体之间的差异。其次，我们不能平均混合种群的丰度，特别是在基于序列的微生物组数据分析中不能平均这些丰度。例如，我们不能将两个种群动态相反的OTU或物种组合在一起或聚集在一起。如果您聚合OTU或物种，从而获得错误的微生物群谱，则时间信息可能会丢失。

3.5.4 因果关系：微生物组数据的因果推断与中介分析

首先，微生物群可能对寄主有因果影响。人类和动物的研究都证明了以下因素：(1)对野生型小鼠和斑马鱼的研究发现，它们的微生物功能和宿主相互作用有许多相似之处；(2)微生物区系在宿主免疫系统的成熟甚至肠道的解剖发育中发挥了作用。其次，人肠道微生物组成是个性化的。大多数微生物群在不同的寄主物种之间有着惊人的差异。在生命周期中，我们的微生物群会随着身体栖息地和时间的不同而发生系统的变化，这些微生物群可能会因疾病(如感染)或医疗干预(如抗生素)而发生短暂或长期的剧烈改变。这些趋势最终可能揭示微生物群的变化如何导致或预防疾病，在肥胖人群中观察到的物种多样性减少；结肠中梭菌门的丰度在结直肠癌患者中显着增加。因此，微生物组领域的研究人员不仅需要了解细菌与人类疾病之间的联系，还需要了解细菌在人类疾病中的致病作用。第三，微生物组与宿主之间的相互关系提示了因果推断模型，或者可以进行中介分析和纵向分析。 当前，微生物组研究人员将重点从相关性转移到因果关系。然而，由于微生物组数据和统计模型的复杂性，在微生物组研究中确定因果关系仍然很少。我们应该将因果关系与相关性区分开，并且不能直接从两个变量之间的关系中推断因果关系，因为“相关既不是建立因果关系的必要条件，也不是充分理由” 中介分析为研究人员提供了有关导致某种结果的一系列后果的故事。它使我们能够进行科学调查，以解释事情是如何发生的。检测微生物组，干预措施和宿主之间的动态因果关系非常关键。然而，据我们所知，因果推理和调解分析的应用有限。

3.5.5微生物组数据的荟萃分析

由于异质性，经常报告类似的微生物组研究结果不一致。荟萃分析旨在减少研究偏倚，确保可靠的结果，增加统计能力并提高对研究效果（例如在类似实验条件或治疗条件下的临床试验）的整体生物学理解。进行微生物组研究的荟萃分析，以测试不同条件或治疗（例如IBD和肥胖症）的相似基本假设。当前，基于网络的统计工具和R包可用于微生物组数据的荟萃分析。例如，基于Web的工具MicrobiomeAnalyst具有进行元分析的功能。R软件包metamicrobiomeR旨在使用随机效应模型对微生物组研究进行荟萃分析。基于零膨胀的βGAMLSS（位置，比例和形状的通用加性模型）：开发了用于分析微生物组相对丰度数据的方法GAMLSS-BEZI。它使用GAMLSS-BEZI来估计组之间的相对丰度的对数（比值比）以及随机效应和固定效应荟萃分析模型，以汇总估计值及其标准误差，从而评估整个微生物组研究的异质性和整体效果。可以使用不同的算法或方法来执行荟萃分析，例如，组合p值，效果大小，等级顺序，来自多个研究的投票，或将不同的原始数据集直接合并为一个大型数据集，然后将其视为单个数据集。投票法是最简单的荟萃分析方法。它首先根据某些标准（例如，调整后的p <0.05）为每个数据集选择差异表达的基因或丰富的分类单元。然后计算所有数据集中检测到的差异表达基因或丰富分类单元的总数。除非其他方法无法解决，否则不应使用表决方法，因为它被认为在统计上效率低下。直接合并不同原始数据集的方法通常应将其应用程序限制在相同或相似的平台上，因为它忽略了来自不同来源的数据集的固有偏差和异质性。与其他研究领域的研究相比，对微生物组数据进行严格的统计荟萃分析面临更多挑战，因为个体数据质量和个体数据集固有的异质性问题更大。在设计和执行微生物组数据的荟萃分析时，我们应遵循荟萃分析的指导原则。严格的统计荟萃分析除了涉及单个数据质量和单个数据集的固有异质性之外，还应使用适当的基础统计方法和固定效应模型或随机效应模型来比较汇总数据集上的组。基于此标准，目前大多数微生物组数据的荟萃分析还不如统计荟萃分析那么严格。当前，大多数最新的微生物组数据荟萃分析将不同的原始数据集直接合并为一个大型数据集，然后使用常规方法（即Alpha分集，主坐标分析（PCoA））分析汇总的数据集。其他研究针对每个数据集独立地对分类单元的相对丰度进行了单变量检验，并使用统计方法（即Kruskal-Wallis检验）来比较各个研究的结果，并使用校正方法调整p值（即Benjamini-Hochberg假）发现率（FDR））。当前，MicrobiomeAnalyst中的荟萃分析功能集中于视觉探索或富集分析。MicrobiomeAnalyst工具缺乏进行组比较的适当统计方法。因此，这不是严格的统计荟萃分析。从使用统计方法和模型检查整个研究的总体合并效应的角度来看，metamicrobiomeR包中的方法是严格的统计学荟萃分析。基于模拟研究，此软件包的作者陈述了它的三个优点：首先，GAMLSS-BEZI通过零膨胀的beta分布直接和适当地解决了微生物组相对丰度数据的分布；其次，与使用反正弦平方根变换的线性模型相比，它在检测组之间的相对相对丰度方面具有更好的功效。第三，各研究组之间相对丰度的估计对数比值比可直接比较。

统计软件简介

生物信息学流程和R程序包在开发用于假设检验和统计分析的统计方法和模型中起着非常重要的作用。

生物信息学管道

QIIME（Caporaso等，2010）和mothur（Schloss等，2009）是两个流行的生物信息学流程。QIIME和mothur的功能是全面的和支持性的文档，因此将它们是两条出色的流程。QIIME和mothur都是独立的，可用于生成微生物组组成数据以及分析16S rRNA基因测序数据。QIIME和mothur可以进行微生物组组成和统计分析，包括α和β多样性，ANOVA，配对和两个样本t检验，阿多尼斯，ANOSIM，MRPP，PERMANOVA，PERMDISP，db-RDA和Mantel检验。

其他领域的R软件包

在微生物组研究中，特别是在早期阶段，研究人员和统计学家使用可用的标准方法和模型或借鉴其他相关领域的统计工具应用到他们的研究中。

vegan是非常重要且使用最广泛的R包（Oksanen等人，2016年），最初是为生态学家设计的。vegan不是独立的。它取决于许多其他R软件包，并且必须在R统计环境下运行。但是,vegan包含最流行的多元分析方法和多样性分析工具以及其他潜在有用的功能。因此，它通常用于分析生态群落，并已被用于分析微生物组数据。我们使用vegan包来计算第6章中的多样性和其他度量。

最初开发了DESeq（Anders and Huber 2010），DESeq 2（Love等人2014），edgeR（Robinson等人2010）来分析数字基因表达数据（Witkin and Ledger 2012）和基因表达的序列分析（SAGE））。它们可用于假设测试和过度分散的计数数据的统计分析DESeq和DESeq 2均使用负二项分布来测试差异表达。edgeR软件包实施了Robinson等人在Robinson和Smyth（2007，2008）中描述的原始统计方法。（2010）和McCarthy等人。（2012）。我们采用它们来分析Chap 11中过度分散的微生物组计数数据。 limma软件包最初是为了检测物种差异丰度而开发的。

现有统计模型的缺陷及未来发展

在本章中，我们全面回顾了当前可用或已用于分析微生物组数据的统计方法和模型。旨在针对微型生物群落数据的特定特征（在横截面或纵向环境中）的统计方法和模型。这些方法将微生物组数据视为相对丰度，将原始reads计数用作输入数据集，或基于系统发育树的数据结构进行分析。

传统的统计方法仍然广泛使用，而在过去几年中已经开发出新的方法。新近开发的方法主要针对微生物组数据的一个或多个特定特征：高维，过度分散，稀疏性（带有过多的零）和复杂的协方差结构。但是，现有的统计方法仍然存在其局限性，包括：

（a）发现因果关系和因果推断时，中介分析仍处于婴儿阶段。近年来，微生物组研究已将重点从相关性转移到因果关系。在生态学中，已经讨论了如何确定因果关系，并提出了一个用于识别复杂生态系统中因果关系的框架（Sugihara等人，2012）。但是，在微生物组研究中，合适的纵向和因果推断模型非常有限。为了满足对动态和复杂的微生物组数据建模的需求，仍然需要适用于分析假设因素之间的因果关系和中介关系的统计工具。

（b）当使用经典的统计方法分析微生物比例数据时，一些研究完全忽略了微生物组数据的约束问题或组成性质。例如，皮尔逊相关分析，t检验，方差分析仍广泛用于分析微生物组数据，而无需测试数据分布或转换。

（c）目前，组成数据分析尚未解决零值问题。微生物组数据的组成数据分析主要集中在两个方面：使用对数比来避免约束问题，以及使用比例代替相关性来解决“虚假相关性”问题。两种方法都取决于对数比转换。通常，将一个较小的值添加到零读取计数以使对数比转换可定义。但是，不允许添加小值的算法。同样，人为的值是否使测试困难？

（d）基于计数的方法仍然需要提高联合建模过度分散和零通胀的能力。建议将微生物组数据视为计数数据，而不是组成数据。基于计数的模型被认为更适合于微生物组的统计和生物学研究数据，因为此方法针对微生物组的多维高维数据结构稀疏性，过度分散和零膨胀，并且具有良好的概念调整。近年来，已经在横截面或纵向设置中开发了几种基于计数的模型。但是，有些方法将细菌分类单元独立对待，而忽略了细菌分类单元之间的依赖性。尽管某些方法联合建模多个方法，但它们具有处理过度分散和/或零通胀的能力有限细菌类群。

（e）从与基于组合和基于计数的方法相比，系统进化树的方法考虑到多个分类单元的意义上看，它是另一种前景。但是，不同级别的细菌类群之间的进化比其他领域（即生态学）更为复杂。我们仍然缺乏合适的方法或模型来联合拟合多个分类单元，并考虑微生物组数据的特征，例如过度分散和/或零通货膨胀。

近年来，尤其是在三年前我们提出这本书之后，微生物组数据的统计分析已取得了巨大进展，这是通过针对横截面和纵向环境中微生物组数据特定特征的方法和模型来证明的。选择标准的统计方法，并从其他领域借鉴它们来开发自己的独特方法。一些新开发的统计方法和模型是可行的，并且非常适合微生物组数据。但是，在微生物组研究中开发统计方法和模型仍有空间。

作为一般准则，新统计方法的重点可能在以下领域：（a）开发纵向模型和因果模型，以实现更准确的因果推论，以适应微生物组，环境和宿主之间动态而复杂的关联。前瞻性模型应具有强大的统计工具，以将微生物组的变化与宿主因素（即健康或疾病）相关联，并具有调整混杂因素的能力，以建立与反应变异性的时间甚至因果关系

（b）继续开发适当的模型，以共同拟合和有效地解释具有多元高维数据结构，过度分散和稀疏性以及零过多的微生物组数据的特征，包括荟萃分析的统计工具

（c）考虑到微生物组数据的组成性质，并使微生物组数据适合组成，同时解决了多变量高维数据结构，过度分散和稀疏性的特点。

（d）在系统树的框架下讨论和提出令人着迷的细菌分类群进化的统计模型。这些未来的研究需要团队合作，包括生物医学研究人员，内科医生，生物信息学专家和生物统计学家。更多的机制驱动研究应基于适当的统计设计，并使用实验模型，人体样本，“组学”技术，生物信息学分析和统计建模。

R语言宏基因组学统计分析学习笔记