16S高通量测序的群落数据分析中,更深层次的数据挖掘是很重要的一环,但是微生物群落标记基因测序的一个局限性就在于它无法提供有关采样群落功能组成的信息。所以我们引入了功能预测分析.
“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,但可以预测任何一个任意的特性。同样,预测通常基于16S rRNA基因测序数据,但也可以使用其他标记基因。
正常来说,进行功能分析有多个研究方法可选:
PICRUSt2 (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States) 是一个从标记基因(一般是16S rRNA)测序数据预测功能丰度的软件。
PICRUSt2集成了现有的开放源代码工具,以预测环境采样的16S rRNA基因序列的基因组。 OTU/ASV放置在参考树中,该树用作功能预测的基础。该参考树包含来自整合微生物基因组(IMG)数据库中细菌和古细菌基因组的20,000个完整16S rRNA基因。
PICRUSt2中的系统发生放置基于三个工具的输出:
这样就形成了一个既包含参考基因组又包含环境采样生物的系统树,用于预测每个OTU/ASV的个体基因家族拷贝数。对于每个输入数据集,将重新运行此过程,从而允许用户根据需要使用自定义参考数据库,包括可以针对特定微生物生态位的研究进行优化的数据库。
PICRUSt2中使用隐藏状态预测方法来推断采样序列的基因组含量,OUT/ASV会通过其16S rRNA基因拷贝数进行校正,然后乘以其功能预测值,从而生成预测的基因组。PICRUSt2还提供了每个预测功能的ASV贡献,从而允许进行分类学方面的统计分析。最后,基于结构化的通路映射来推断通路丰度,该映射比PICRUSt1中使用的“基因袋”方法更为保守。
PICRUSt2参考数据库的分类学多样性大于PICRUSt1,多样性最明显的增加是在物种和属水平上(分别增加了5.3倍和2.2倍),但是所有分类学水平都更加多样化,包括门类,其覆盖范围从39个门增加到64个门
PICRUSt2支持基于多个基因家族数据库的预测,默认包括KEGG同源基因,KO直系同源物,和EC酶分类编号;可自定义其他库,例如:MetaCyc途径的丰度;Pfam数据库是蛋白质家族的大量集合,每个家族由多个序列比对和隐马尔可夫模型(HMM)表示。
PICRUSt2通过将最近添加到KEGG数据库中的基因家族包括在内,对PICRUSt1进行了明显的改进。具体而言,与PICRUSt1中的6,909个相比,PICRUSt2中的KO总数为10,543,增长了1.5倍。
输出文件描述:
四、预测信息可视化
得到上述群落功能丰度表后,就可以参考OUT/ASV丰度表的统计分析方法进行类似的分析。例如,首先计算特定功能丰度在组间的显著性,获得组间差异显著的功能,然后再从数据库官网上(例如KEGG数据库:https://www.kegg.jp)查询该功能的细节,解释生物学现象等。
根据功能丰度分析结果,可以得知一个或多个样品在“功能”分布比对情况。在结果中,包含了两个信息:
Heatmap:用颜色变化来反映二维矩阵或表格中的数据信息,很直观地将数据值的大小以定义的颜色深浅表示出来。先对功能/样本间丰度相似性聚类,然后将高低丰度的物种分块聚集。通过颜色梯度及相似程度来反映多个样品在功能基因组成的相似性和差异性。
PCA(PrincipalComponentAnalysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。样品组成越相似,反映在PCA图中的距离越近。
方法:采用参数检验和非参数检验两种方法,两组样本之间采用方法:wilcox;三组样本或多组样本之间采用方法:krustal;两组样本之间采用方法:Ttest;三组样本或多组样本之间采用方法:anova.
选择p值小于0.05(即差异显著的)的用柱形图展示出来,如果差异的物种多于20个,则选择物种丰度最高且有差异的前20个进行柱形图绘制。