2023.07.26【微生物】|qiime2组间分析,ANCOM算法介绍与结果解读

目录

  • 摘要
  • ANCOM简介
  • 主要步骤
    • 数据聚合
    • 添加伪计数
    • 计算特征差异
  • 结果解读
    • 火山图
    • 差异显著特征统计表
    • 差异显著特征百分位数统计表
    • 优缺点
  • 总结

摘要

在使用qiime2进行16S/ITS分析的时候,少不了对样品进行组间分析。除了常见的PicRust和Lefse分析之外,qiime2自带了ANCOM分析。不过这个大家并不是很熟悉,网上对ANCOM的结果也没有非常详尽的介绍。因此我根据查阅的文献资料,整理出这篇文章。希望对使用qiime2分析微生物有需求的小伙伴提供一些帮助。

ANCOM简介

ANCOM(Analysis of Composition of Microbiomes)是一种用于分析微生物组成数据的统计方法。它被广泛应用于微生物组学研究中,可以帮助研究人员识别和比较不同样本或处理组之间的微生物组成差异。其原理基于组间差异性的假设,即除了一个特定的特征(如治疗组别)外,其他所有特征在各个组之间的相对丰度应该是相等的。如果某个特征在一个组别中的相对丰度显著高于其他组别,那么它可能与该组别有关联。

主要步骤

数据聚合

首先,我们要去除低丰度的微生物分类单元(OTU/ASV,可选操作),并对数据进行标准化或转换操作。在qiime2中,输入数据的格式是ASV的丰度表,类似OTU表。其中每列代表一个样本,每行代表一个微生物分类单元,用字母+数字表示。

qiime taxa collapse命令用于聚合和重命名OTU表。通过该命令,我们需要使用前面分析得到的table.qza和taxonomy.qza两个文件,将OTU表中特定分类水平的特征聚合到更高的分类水平上,并将绝对丰度转换为相对丰度,便于后续分析。该命令可以使用--p-level参数来指定特定的分类水平进行分析,2-7分别对应门纲目科属种。

添加伪计数

由于在ANCOM的分析过程中需要用到对数进行分析,而相对丰度为0的分类群无法参与对数分析,因此需要对这类数据随机添加一个很小的正数,解决计算组成差异时产生问题。

qiime composition add-pseudocount对预处理的数据进行伪计数添加,将有助于保持数据的稳定性,并提高组成差异分析的准确性。

计算特征差异

在ANCOM中,W统计量用检测不同组之间的特征(OTU、ASV等)是否存在显著差异。
W统计量的计算步骤下:
a. 对于每个特征,将其在所有样本中的相对丰度进行排序。
b. 将样本分为两组:目标组和参考组。通常情况下,目标组是我们感兴趣的组别,而参考组是其他组别的合并。
c. 对于每个特征,计算目标组和参考中的累积相对丰度。累积相对丰度指从最低相对丰度的特征开始,逐渐累积到当前特征的相对丰度之和。
d. 计算目标组和参考组中每个特征的平均累积相对丰度。
e. 对于每个特征,计算目标组和参考组中的差异值。差异值是指目标组的平均累积相对丰度减去参考组的均累积相对丰度。
f. 对于每个特征,计算其差异值的标准差。
g. 对于每个特征,计算W统计量,即将差异值除以其标准差。
根据W统计量的值判断特征是否在目标组和参考组之间存在显著差异。一般来说绝对值大1.96的W统计量被认是显著差异的特征。

qiime composition ancom命令将前面添加伪计数的相对丰度数据和样品分组信息(metadata.txt)进行输入,通过--m-metadata-column 设定目标组,分析显著差异的特征。

结果解读

qiime2得到的ANCOM结果同样可以通过网页展示,里面包含一个火山图和两个统计表格

火山图

2023.07.26【微生物】|qiime2组间分析,ANCOM算法介绍与结果解读_第1张图片

X轴CLR指的是中心对数比例(Centered Log Ratio)变换。是对相对丰度值进行了对数压缩,同时保留了特征的相关性。具体算法是这种变换将每个特征的相对丰度除以几何平均值,然后取对数并减去所有特征的对数几何平均值。CLR越大,则相对丰度越高。Y轴则是W统计量,统计量越高,则该特征差异越显著。

差异显著特征统计表

2023.07.26【微生物】|qiime2组间分析,ANCOM算法介绍与结果解读_第2张图片
在前面数据预处理时,table.qza和taxonomy.qza两个文件已经过聚合,当W统计量计算出来后,对应注释出来的分类群也可以展示出来,并根据W值从高到低排列。

差异显著特征百分位数统计表

2023.07.26【微生物】|qiime2组间分析,ANCOM算法介绍与结果解读_第3张图片
Percentile abundances of features by group指的是将每个特征的相对丰度按组进行排序,并计算每个组中每个特征的百分位数。这种方法可以更好地描述组内特征的相对丰度分布,并在ANCOM分析中使用。

优缺点

ANCOM的优点包括能够处理稀疏数据、保持较低的误报率以及对异常值具有鲁棒性。然而,它也存在一些限制,例如对数据的分布假设敏感,对样本数目和特征维度的要求较高。总而言之,ANCOM是一种广泛应用于微生物组学研究中的分析方法,可以帮助研究人员发现微生物组成的差异并探索其与其他因素之间的关系。

总结

想要具体了解ANCOM算法的小伙伴可以看看文献:Full article: Analysis of composition of microbiomes: a novel method for studying microbial composition

qiime2工具中整合的分析方法还有很多,有些结果连分析人员都需要仔细研究后才能弄清楚。当然,Lefse和PicRust绘图更加直观,ANCOM可以作为组间比较的一个辅助分析方法。欢迎加v bbplayer2021 进群沟通。

(部分内容为AI创作)

你可能感兴趣的:(扩增子,细菌,读书笔记,算法,人工智能,机器学习)