16S的细菌群落功能预测工具PICRUSt2学习
2018年推出了全新版本的PICRUSt,即PICRUSt2(https://github.com/picrust/picrust2)
PICRUSt2 (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States)是一款基于标记基因序列来预测功能丰度的软件。
“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,但可以预测任何一个任意的特性。同样,预测通常基于16S rRNA基因测序数据,但也可以使用其他标记基因。
GitHub上的文档中,您可以找到脚本、安装说明和工作流的描述。有关详细信息,请参见github wiki的右侧栏。https://github.com/picrust/picrust2/wiki
PICRUSt2包括这些改进以及与原始版本相比的其他改进:
允许用户预测任何16S序列的功能。来自OTU或扩增序列变体(amplicon sequence variants,ASV,例如DADA2和Deblur输出)的代表性序列可通过序列放置方法用作输入。
用于预测的参考基因组数据库扩大了10倍以上。
从Castor R包中添加隐藏状态预测算法。
允许输出MetaCyc 本体预测,这将可与普通宏基因组学的结果比较。
通路丰度的推断现在依赖于MinPath,这使得这些预测更加严格
1、安装
https://github.com/picrust/picrust2/wiki/Installation
仅支持Linux或Mac,且运行至少16G内存。
这里使用推荐的conda安装。
#使用 bioconda 安装 PICRUSt2 环境
conda create -n picrust2 -c bioconda -c conda-forge picrust2
#激活环境
source activate picrust2
#退出环境
source deactivate picrust2
2、准备数据
PICRUSt2无需再以GreenGene注释的OTU表为输入,可以直接读取OTU的代表序列自动完成物种注释,并进一步根据物种丰度组成预测群落功能。
文件“data/otu_table.txt”为OTU丰度表格,仅包含丰度组成信息即可,无需添加注释列。
文件“data/otu.fasta”中包含了OTU丰度表中各OTU的代表序列。
3、PICRUSt2预测群落功能
将上述两个文件作为PICRUSt2的输入。相比PICRUSt1,PICRUSt2的使用可以一键式完成,包括16S物种注释、拷贝数均一化、基因家族的隐藏状态预测、基因组功能推断、功能途径丰度预测等。
#比 picrust1 使用起来省事多了,直接输入原始 OTU 代表序列和丰度表即可
#一个整合多步的快捷命令
#picrust2_pipeline.py -h
picrust2_pipeline.py -s otu.fasta -i otu_table.txt -o picrust2_result -p 4
这是一个打包好多命令组合,傻瓜式运行后即可得到多步结果。根据文档建议,至少需要16GB内存支持(尽管大部分功能实现无需占用这么多内存,所以实际上小于16GB内存也可以使用,但可能要分步实现)。
如想分开运行各步骤,加深对PICRUSt2具体执行过程的理解,可参考:
https://github.com/picrust/picrust2/wiki/Workflow
4、结果说明
out.tre,所有OTU代表序列构建的系统发育树文件。
KO_metagenome_out/,该结果路径中记录了细菌群落KO(KEGG Orthology)功能的丰度预测结果。
KO_metagenome_out/seqtab_norm.tsv.gz,对于很多细菌而言,一个个体可能包含多条16S(多拷贝16S),因此在原始OTU 16S rRNA丰度表的基础上,根据物种所含16S rRNA拷贝数对物种丰度进行标准化,得到校正16S rRNA拷贝数后的OTU丰度表。
KO_metagenome_out/pred_metagenome_unstrat.tsv.gz,该文件中即为预测得到的细菌群落功能丰度表,记录了各样本中所包含KO功能的丰度,丰度计算由上述校正16S rRNA拷贝数标准化后的OTU丰度表推断得到。功能以KO ID为名称,代表了特定的功能基因。
KO_metagenome_out/weighted_nsti.tsv.gz,各样本预测功能的加权NSTI值,由OTU的NSTI值通过标准化后的丰度加权所得。
EC_metagenome_out/,该结果路径中记录了细菌群落酶(EC)功能的丰度预测结果。文件结构同上述KO_metagenome_out/,不再展示。
pathways_out/path_abun_unstrat.tsv.gz,上述为预测得到的以KO ID为名称的KO功能,实则代表了特定的功能基因,将这些功能基因映射到具体的KEGG代谢途径(KEGG pathway)中,并统计各途径在各样本中的丰度,获得该表。
KO_predicted.tsv.gz和EC_predicted.tsv.gz,两个矩阵文件中记录了OTU对预测功能丰度的贡献,即可以理解为每个OTU所代表的物种个体基因组中,分别有多少数量的基因与对应的KO功能或酶功能有关。如果期望关注哪些OTU是否对群落功能是重要的,这些表格(该表仅代表了单个物种个体基因组的特征,可能还需结合OTU的丰度信息)可以提供参考
marker_predicted_and_nsti.tsv.gz,记录了OTU代表物种基因组中,16SrRNA拷贝数以及功能预测的NSTI值信息。
Intermediate/,一些中间文件。
5、后续分析
获得群落功能丰度表后,就可以按照OTU丰度表的统计分析方法,去执行类似的分析了。这点可以找一些文献作参考,看别人是怎样做的。例如,首先计算特定功能丰度在组间的显著性,获得组间差异显著的功能,然后再从数据库官网上(例如KEGG数据库:https://www.kegg.jp)查询该功能的细节,解释生物学现象等。