PICRUSt2功能预测分析

16S高通量测序的群落数据分析中,更深层次的数据挖掘是很重要的一环,但是微生物群落标记基因测序的一个局限性就在于它无法提供有关采样群落功能组成的信息。所以我们引入了功能预测分析.

“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,但可以预测任何一个任意的特性。同样,预测通常基于16S rRNA基因测序数据,但也可以使用其他标记基因。

正常来说,进行功能分析有多个研究方法可选:

  1. 基于16S分析进行功能预测
  2. 功能基因扩增分析
  3. 宏基因组/宏转录组等全基因组分析

PICRUSt2 (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States) 是一个从标记基因(一般是16S rRNA)测序数据预测功能丰度的软件。

一、PICRUSt2方法的优势

  1. PICRUSt2方法由系统发育位置,隐藏状态预测以及按样本的基因和途径丰度列表组成。 将OTU/ASV序列和丰度两个文件作为输入,并输出基因家族和途径丰度。 PICRUSt2实现中包含默认工作流的所有必需参考树和特征数据库。
  2. PICRUSt1流程将预测限制为Greengenes参考数据库中的OTU/ASV。 这项要求导致排除了其他16S rRNA基因测序数据集中的许多公开序列。PICRUSt2放宽了此要求,并且与输入序列是否在参考数据库内无关,这几乎使所有用户的OTU/ASV都保留在最终输出中。
  3. 与PICRUSt1相比,默认PICRUSt2数据库中的物种分类学多样性有所增加,其中种增加近5倍,基因组增加10倍。

二、PICRUSt2方法原理

PICRUSt2集成了现有的开放源代码工具,以预测环境采样的16S rRNA基因序列的基因组。 OTU/ASV放置在参考树中,该树用作功能预测的基础。该参考树包含来自整合微生物基因组(IMG)数据库中细菌和古细菌基因组的20,000个完整16S rRNA基因。

PICRUSt2中的系统发生放置基于三个工具的输出:

  1. HMMER用于放置OTU/ASV
  2. EPA-ng确定这些放置的OTU/ASV在参考系统发育中的最佳位
  3. GAPPA用于输出一棵包含OTU/ASV放置位置的新树

这样就形成了一个既包含参考基因组又包含环境采样生物的系统树,用于预测每个OTU/ASV的个体基因家族拷贝数。对于每个输入数据集,将重新运行此过程,从而允许用户根据需要使用自定义参考数据库,包括可以针对特定微生物生态位的研究进行优化的数据库。

PICRUSt2中使用隐藏状态预测方法来推断采样序列的基因组含量,OUT/ASV会通过其16S rRNA基因拷贝数进行校正,然后乘以其功能预测值,从而生成预测的基因组。PICRUSt2还提供了每个预测功能的ASV贡献,从而允许进行分类学方面的统计分析。最后,基于结构化的通路映射来推断通路丰度,该映射比PICRUSt1中使用的“基因袋”方法更为保守。

PICRUSt2参考数据库的分类学多样性大于PICRUSt1,多样性最明显的增加是在物种和属水平上(分别增加了5.3倍和2.2倍),但是所有分类学水平都更加多样化,包括门类,其覆盖范围从39个门增加到64个门

三、PICRUSt2输出

PICRUSt2支持基于多个基因家族数据库的预测,默认包括KEGG同源基因,KO直系同源物,和EC酶分类编号;可自定义其他库,例如:MetaCyc途径的丰度;Pfam数据库是蛋白质家族的大量集合,每个家族由多个序列比对和隐马尔可夫模型(HMM)表示。

PICRUSt2通过将最近添加到KEGG数据库中的基因家族包括在内,对PICRUSt1进行了明显的改进。具体而言,与PICRUSt1中的6,909个相比,PICRUSt2中的KO总数为10,543,增长了1.5倍。

输出文件描述:

  1. out.tre,所有OUT/ASV代表序列构建的系统发育树文件。
  2. KO_metagenome_out/,该结果路径中记录了细菌群落KO(KEGG Orthology)功能的丰度预测结果。
  3. KO_metagenome_out/seqtab_norm.tsv.gz,对于很多细菌而言,一个个体可能包含多条16S(多拷贝16S),因此在原始OUT/ASV 16S rRNA丰度表的基础上,根据物种所含16S rRNA拷贝数对物种丰度进行标准化,得到校正16S rRNA拷贝数后的OUT/ASV丰度表。
  4. KO_metagenome_out/pred_metagenome_unstrat.tsv.gz,该文件中即为预测得到的细菌群落功能丰度表,记录了各样本中所包含KO功能的丰度,丰度计算由上述校正16S rRNA拷贝数标准化后的OUT/ASV丰度表推断得到。功能以KO ID为名称,代表了特定的功能基因。
  5. KO_metagenome_out/weighted_nsti.tsv.gz,各样本预测功能的加权NSTI值,由OUT/ASV的NSTI值通过标准化后的丰度加权所得。
  6. EC_metagenome_out/,该结果路径中记录了细菌群落酶(EC)功能的丰度预测结果。文件结构同KO_metagenome_out/。
  7. pathways_out/path_abun_unstrat.tsv.gz,上述为预测得到的以KO ID为名称的KO功能,实则代表了特定的功能基因,将这些功能基因映射到具体的KEGG代谢途径(KEGG pathway)中,并统计各途径在各样本中的丰度,获得该表。
  8. KO_predicted.tsv.gz和EC_predicted.tsv.gz,两个矩阵文件中记录了OUT/ASV对预测功能丰度的贡献,即可以理解为每个OUT/ASV所代表的物种个体基因组中,分别有多少数量的基因与对应的KO功能或酶功能有关。如果期望关注哪些OUT/ASV是否对群落功能是重要的,这些表格(该表仅代表了单个物种个体基因组的特征,可能还需结合OUT/ASV的丰度信息)可以提供参考
  9. marker_predicted_and_nsti.tsv.gz,记录了OUT/ASV代表物种基因组中,16SrRNA拷贝数以及功能预测的NSTI值信息。

四、预测信息可视化

得到上述群落功能丰度表后,就可以参考OUT/ASV丰度表的统计分析方法进行类似的分析。例如,首先计算特定功能丰度在组间的显著性,获得组间差异显著的功能,然后再从数据库官网上(例如KEGG数据库:https://www.kegg.jp)查询该功能的细节,解释生物学现象等。

  1. 功能组成分析

根据功能丰度分析结果,可以得知一个或多个样品在“功能”分布比对情况。在结果中,包含了两个信息:

  1. 样品中功能基因组成成分

    PICRUSt2功能预测分析_第1张图片

  2. 样品中各功能的序列数,即各功能基因的相对丰度。

 

  1. 热图Heatmap

Heatmap:用颜色变化来反映二维矩阵或表格中的数据信息,很直观地将数据值的大小以定义的颜色深浅表示出来。先对功能/样本间丰度相似性聚类,然后将高低丰度的物种分块聚集。通过颜色梯度及相似程度来反映多个样品在功能基因组成的相似性和差异性。

PICRUSt2功能预测分析_第2张图片

 

  1. 主成分分析PCA

PCA(PrincipalComponentAnalysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。样品组成越相似,反映在PCA图中的距离越近。

PICRUSt2功能预测分析_第3张图片

 

  1. 功能差异分析

方法:采用参数检验和非参数检验两种方法,两组样本之间采用方法:wilcox;三组样本或多组样本之间采用方法:krustal;两组样本之间采用方法:Ttest;三组样本或多组样本之间采用方法:anova.

选择p值小于0.05(即差异显著的)的用柱形图展示出来,如果差异的物种多于20个,则选择物种丰度最高且有差异的前20个进行柱形图绘制。

PICRUSt2功能预测分析_第4张图片

 

你可能感兴趣的:(PICRUSt2,功能差异分析,16S高通量测序,功能基因分析)