QIIME 2不仅可用于处理标记基因分析,而且 在广泛的用户和社区人员参与开发下,已经产生了很多 可用插件 ,在未来还有更多的插件整合到QIIME 2中,它将成为适应多种微生物组数据特征的平台。
该流程利用扩增16S rRNA基因高变区4(V4)测序研究人体各部位微生物组。
1. 数据准备
样本元数据:包括sample-id, barcode-sequence, body-site, time, subject, reported-antibiotic-usage, days-since-experiment-start,这些数据将是后期分组、分析的依据。
拆分样品依据: 如barcode(a.k.a. index or tag) sequence 包含与待分析序列中的每个序列和每个样品相关联的信息。
混合的序列文件。
其中样本元数据制作可参考官方指南;qiime支持多种2,3数据的输入,参考 官方指南 或者去 技术支持网页 寻求帮助。
2. 拆分样品
样品拆分 是qiime分析中非常重要的一步,可使用的插件有demux 和 cutadapt 。demux参考教程可以从 moving pictures tutorial 和 Atacama soils tutorial 找到,而cutadapt有官方参考教程 ,或者去官方技术支持网页查看广大网友已经解决过的问题。
拆分后生成的.qza结果可以用 summarize 中的 --o-visualization 生成样本数据量和质量可视化图表 ,可以用 qiime tools view demux.qzv 查看。
3. 序列质控和生成特征表
该阶段主要是去掉或者纠正noisy sequences ,删除嵌合序列, 序列去冗余 (保持计数),将相似序列聚类(挑选OTU), 具体流程图可见 。
DADA2 示例在 moving pictures tutorial and Fecal Microbiome Transplant study tutorial (for single-end data) and Atacama soils tutorial (for paired-end data)
deblur 示例在 moving pictures tutorial (for single-end data) and read joining tutorial (for paired-end data)中
vsearch
-
值得注意的是:
根据interactive quality plot选择
--p-trim-left m
(去除前m个碱基(如引物、标签序列barcode))和--p-trunc-len n
(在位置n截断) 。一般看箱线图中位数,n值选择quality score开始持续下降的第一个sequence base (低质量区域前)。在使用deblur 和 vsearch dereplicate-seqences分析之前必须进行数据质量过滤,但对于DADA2并不是必要的。
由于deblur和DADA2都包含内部嵌合体检查和丰度过滤方法,因此这两个插件质控后不需要额外的过滤。
推荐DADA2插件是因为它仅去噪去嵌合,不再按相似度聚类,产生的结果与真实物种的序列更接近;而且速度更快一些,步骤也少一些,但所需内存较大;当然最好两种都试试
同样feature-table summarize 可以生成特征表统计可视化图表, feature-table tabulate-seqs 生成代表序列统计统计表。
-
结果:
table.qza
: view | download 特征表rep-seqs.qza
: view | download 代表序列table.qzv
: view | downloadrep-seqs.qzv
: view | download
4. 构建进化树用于多样性分析
phylogen插件 功能包含包括建树,过滤不在树上的features等功能。其中align-to-tree-mafft-fasttree 流程可以生成多序列比对结果、过滤去除高变区后的多序列比对结果、有根树(用于多样性分析)和无根树,文件可 导出 后在外部用其他软件可视化和美化 。
- 结果:
aligned-rep-seqs.qza
: view | downloadmasked-aligned-rep-seqs.qza
: view | download 过滤去除高变区后的多序列比对结果rooted-tree.qza
: view | downloadunrooted-tree.qza
: view | download
5. Alpha和beta多样性分析
diversity插件 用于计算α和β多样性指数、并应用相关的统计检验以及生成交互式可视化图表。
计算核心多样性
结果位于core-metrics-results :
core-metrics-results/faith_pd_vector.qza
: view | downloadcore-metrics-results/unweighted_unifrac_distance_matrix.qza
: view | downloadcore-metrics-results/bray_curtis_pcoa_results.qza
: view | downloadcore-metrics-results/shannon_vector.qza
: view | downloadcore-metrics-results/rarefied_table.qza
: view | downloadcore-metrics-results/weighted_unifrac_distance_matrix.qza
: view | downloadcore-metrics-results/jaccard_pcoa_results.qza
: view | downloadcore-metrics-results/observed_otus_vector.qza
: view | downloadcore-metrics-results/weighted_unifrac_pcoa_results.qza
: view | downloadcore-metrics-results/jaccard_distance_matrix.qza
: view | downloadcore-metrics-results/evenness_vector.qza
: view | downloadcore-metrics-results/bray_curtis_distance_matrix.qza
: view | downloadcore-metrics-results/unweighted_unifrac_pcoa_results.qza
: view | downloadcore-metrics-results/unweighted_unifrac_emperor.qzv
: view | downloadcore-metrics-results/jaccard_emperor.qzv
: view | downloadcore-metrics-results/bray_curtis_emperor.qzv
: view | downloadcore-metrics-results/weighted_unifrac_emperor.qzv
: view | download
如果想要个性化分析,可以将各个矩阵导出,不过qiime的哲学就是在压缩包内无干扰进行分析,所以没有什么必要。
qiime tools export \
--input-path bray_curtis_distance_matrix.qza \
--output-path ~/outpu_bray_curtis_distance_matrix
α多样性
Alpha多样性是指一个特定区域或生态系统内的多样性,其多样性指数是反映样本中微生物丰富度和均匀度的综合指标;Alpha多样性分析主要包括Shannon多样性指数、Simpson指数、Chao1丰富度指数等多样性指数的计算。
香农多样性指数( Shannon’s diversity index ):定量群落丰富度的指数,包括丰富度(richness)和均匀度(evenness)两个层面.
可观测的OTU(Observed OTUs):一种群落丰富度的定性方法
Faith’s系统发育多样性( Faith’s Phylogenetic Diversity ):结合群落特征之间的系统发育关系对群落丰富程度进行定性
均匀度(Evenness)或 Pielou’s均匀度(Pielou’s Evenness ):度量群落均匀度
Alpha稀疏曲线可以用来比较测序数量不同的样本物种的丰富度,也可以用来说明样本的取样大小是否合理。它是利用已测得16S rRNA序列中已知的各种features(OTU)的相对比例,来计算抽取n个(n小于测得reads序列总数)reads时出现features(OTU)数量的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的features(OTU)数量的期望值(此处采用chao1算法估计),当曲线趋向平坦时,说明测序数据量合理,更多的数据量只会产生少量新的features(OTU),反之则表明继续测序还可能产生较多新的features(OTU)。
shannon - wiener 曲线
Rank-Abundance 曲线
Species accumulation 曲线种:物种累积曲线( species accumulation curves) 是用于描述随着样品数量的加大而物种增加的状况,是调查样品的物种组成和预测样品中物种丰度的有效工具,被广泛用于样品量是否充分的判断以及物种丰富度( species richness) 的估计。因此,通过物种累积曲线不仅可以判断样品量是否充分,在样品量充分的前提下,运用物种累积曲线还可以对物种丰富度进行预测(默认在样品量大于10个分析)。
alpha 多样性指数统计
β多样性
β多样性是对不同样本或不同组间样本的微生物群落构成进行比较分析。可以用features(OTU)的丰度信息进行样本间距离计算, 也可以用features(OTU)之间的系统发生关系进行计算。
Jaccard距离(Jaccard distance ):一种群落差异的定性指数,即只考虑种类,不考虑丰度
Bray-Curtis距离 (Bray-Curtis distance):一种群落差异的定量方法
距离矩阵热图
PCoA/PCA 分析
NMDS 分析
PLS-DA 分析
进化分析
UniFrac是用于比较生物群落的一种距离度量,它在计算过程中包含了遗传距离(phylogenetic distances)的信息, 根据构建的进化树枝的长度计量两个不同环境样品之间的差异。
非加权UniFrac距离( unweighted UniFrac distance):结合群落特征之间的系统发育关系对群落差异度进行定性。
加权UniFrac距离(weighted UniFrac distance ):结合群落特征之间的系统发育关系对群落差异度进行定量。
实际应用的合理性:在环境样本的检测中,由于影响因素复杂,群落间物种的组成差异更为剧烈,因此往往采用非加权方法进行分析。但如果要研究对照与实验处理组之间的关系,例如研究短期青霉素处理后,人肠道的菌落变化情况,由于处理后群落的组成一般不会发生大改变,但群落的丰度可能会发生大变化,因此更适合用加权方法去计算。
- 值得注意的是:
需要根据可视化后的特征表选择适合的--p-sampling-depth即稀疏/稀疏rarefaction的深度,该深度应该尽可能多的去除数据量过低的异常值,同时每个样保留足够的序列(90%左右的序列?),并且尽可能少的排除样本。
6. 物种组成分析(OTU聚类分析 )
利用 预训练 或者 现存 的分类器生成从序列到物种注释结果de关,并统计所有样本在门、纲、目、科、属各层次上的分类结果。
物种组成差异:选择丰度前十五的物种采用累积柱状图比较样本间的物种组成差异,并进行列表展示。
物种丰度聚类热图: 基于属水平上每个样品的物种丰度信息,选取丰度前50的属,根据各样品的丰度信息对样品和物种进行聚类,绘制热图。便于观察样品对应物种含量得高低。结果如下图所示:
单样本多级物种组成图 : 对物种注释结果进行可视化展示, 圆圈图得各层依次代表物种得分类级别,扇形的大小代表注释物种的比例。
物种分类等级分析:
共有特有OTU分析:
7. ANCOM丰度差异分析
ANCOM可用于分别进行不同样本组中丰度差异的特征。
结果:
gut-table-l6.qza: 按属水平折叠的特征表。
comp-gut-table-l6.qza: 属水平筛选肠样本的相对丰度组成表
输出可视化结果:
- l6-ancom-Subject.qzv: 属水平差异比较结果。
8. NMDS分析
NMDS(Non-metric Multidimensional scaling)非度量多维尺度分析是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。
适用于无法获得研究对象间精确的相似性或相异性数据,仅能得到他们之间等级关系数据的情形。
其基本特征是将对象间的相似性或相异性数据看成点间距离的单调函数,在保持原始数据次序关系的基础上,用新的相同次序的数据列替换原始数据进行度量型多维尺度分析。
其特点是根据样品中包含的物种信息,以点的形式反映在多维空间上,而对不同样品间的差异程度,则是通过点与点间的距离体现的,最终获得样品的空间定位点图。
9. 差异分析
LEfSe分析
LEfSe分析即LDA Effect Size分析,是一种用于发现高维生物标识和揭示基因组特征的分析,使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非参数因子克鲁斯卡尔—沃利斯和秩验检)检测具有显著丰度差异特征,并找到与丰度有显著性差异的类群。最后,LEfSe采用线性判别分析(LDA)来估算每个组分(物种)丰度对差异效果影响的大小。能够在组与组之间寻找具有统计学差异的生物标识(Biomarker),即组间差异显著的物种。
LDA值分布柱状图:
通过LDA分析(线性回归分析)统计不同组别中有显著作用微生物类群的LDA分值,展示了LDA 分值大于设定阈值的物种,即具有统计学差异的biomaker,柱状图的长度代表显著差异物种的影响大小;
进化分支图
由内至外辐射的圆圈代表了由门至属(或种)的分类级别,在不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。
着色原则:无显著差异的物种统一着色为黄色,差异物种 Biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群,其它圈颜色意义类同。图中英文字母表示的物种名称在右侧图例中进行展示。
Metastats:
UniFrac距离比较分析:
多元方差和置换检验分析
ANOSIM相似度分析:
随机森林分析:
多样性组间显著性分析和可视化
计算α多样性:Faith’s系统发育多样性和均匀度(Evenness)
计算 β 多样性: 基于非加权UniFrac距离的 body 和subject多样性
PCoA分析:主坐标分析(Principal Coordinate Analysis,PCoA)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,有效地找出数据中最“主要”的元素和结构,对样本之间的关系进行描述。
10. 相关性分析
RDA/CCA 分析
OTU的共表达网络分析
相关性网络分析
network网络分析
环境因子关联分
11. 功能预测
KEGG
COG
功能基因分布图
功能基因比较分析
12. 结果
先看报告中数据量是多少,有多少条序列,一般至少需要1万条序列进行后续分析。看看得到多少个OTU,以及丰度前10的微生物是什么以及在不同分组中丰度的变化。
在OTU 分析文件中看各微生物丰度文件,一般里面有门、纲、目、科、属水平的丰度,目前主流看门水平和属水平。
看Alpha多样性中稀释曲线、Shannon或Rank abundance曲线是否饱和,goods_coverage是否98%以上(数据量是否够)。看看每个样本的多样性 Alpha多样性,四大指数(Shannon、simpson、ace、chao1),看看组间是否有多样性差异,一般指数间变化是一致的,如果不一致可以选择其中的一两种作为结果。
Beta多样性中PCA、PCOA、NMDS降维分析的图,看看不同分组是否能分开,如果肉眼能看到明显的分离,说明组间的差异很大。很多情况下,不一定有明显的分离,这时需要看看adonis或者anosim的P值,看组间是否有统计学的差异。
看看LEfSe和Metastats分析出来的显著差异的物种,注意:Metastats分析是两两组间比较,LEfSe分析是多组间差异的比较。
13. tips
一般的水体研究,可以开展5个以上重复,土壤、植物10个以上,而人体肠道微生物研究,则推荐20个以上样本。