QIIME2进阶一_用QIIME2解析序列,诠释生命

本文旨在介绍生物信息学软件QIIME2及其核心组成。

2010年,美国科罗拉多大学的Rob Knight教授(现单位美国加州大学圣地亚哥分校)团队发布QIIME(发音同chime)分析流程。该流程可在Linux或Mac系统中运行,相比mothur具有更多的优点,主要包括:整合了200多款相关软件和包,实现每个步骤更多软件和方法的选择;提供150多个脚本,实现各种个性化分析,并可以应对不同类型数据和实验设计;流程开放程度高,容易整合新软件和方法;增强统计和可视化,实现多样性、物种组成、差异比较和网络等众多方法和出版级图表绘制。由于QIIME允许同领域研究者较自主地开展扩增子数据的个性化分析和可视化,逐渐成为本领域最受欢迎的软件。为了满足日益增长的测序数据量和可重复计算的要求,Gregory J. Caporaso教授于2016年起发起了基于Python3语言从头编写的QIIME2项目。该项目实现了分析流程的可追溯以满足科研可重复计算的要求;同时推出了一系列新算法,如基于进化距离的快速算法条型(Striped)UniFrac、物种分类新方法2-feature-classifier等;更重要的是软件的可扩展性和得到了同际同行的广泛支持,如接头和引物序列去除工具cutadapt、序列质量控制R包DADA2、聚类和去冗余的软件VSEARCH、纵向和成对样本分析工具longitudinal等,甚至包括宏基因组、宏代谢组分析和中文帮助文档,极大了提高了流程的适用范围和易用性。

QIIME2进阶一_用QIIME2解析序列,诠释生命_第1张图片

全新的QIIME2是一个强大的、可扩展的和去中心化的微生物组分析平台,侧重于数据分析的透明度。QIIME2使研究人员能够从原始DNA序列数据开始分析,并获得出版物质量图片和统计结果。QIIME2保留了QIIME1强大和广泛使用等优点,也改进了先前版本中的不足。

全新的QIIME2平台具有以下几大优点:

(1)安装更加简单,支持多种系统,能够满足绝大多数使用者的需求;

(2)整合分析流程、自动化追踪数据来源,保证了每一步分析都可追踪溯源;

(3)开发了语义类型系统,可快速自动识别导入文件类型;

(4)开发插件系统,可扩展微生物分析功能种类,将复杂的分析过程整体化、综合化;

(5)支持多种用户界面(如API、命令行、图形界面);

(6)是一个开源的平台,每一个使用者均可开发插件;

(7)可视化功能强大,在使用时可生成交互式图形以便使用者了解数据处理结果;

(8)具有相对完善的社区平台,使用者可在论坛进行讨论。

核心概念

想要深入的了解QIIME2的分析流程,需要了解一下QIIME2的核心概念(Core concepts)。

数据文件: QIIME 2对象/文件格式(Data files: QIIME 2 artifacts)

QIIME2生成的数据作为QIIME2对象(artifacts)存在。QIIME2对象包含数据和元数据。元数据描述了有关数据的内容,例如数据的类型、格式以及数据的生成方式(出处)。当存储在文件中时,QIIME2对象通常具有.qza文件扩展名。使用QIIME2对象代替简单的数据,可以自动追踪文件类型、格式和分析过程,且研究者无需考虑过程中的各种数据类型。QIIME2对象可以查看之前的分析过程,每步使用的输入数据。可以使研究者准确知道它的分析步骤。这样使分析过程可重复,可学习,也可以产生在方法中使用的文本和图表。

数据文件:可视化(Data files: visualizations)

可视化(visualizations)是QIIME2生成的另一种类型的数据。可视化文件通常具有.qzv文件扩展名。可视化包含与QIIME2对象类似的元数据类型。与QIIME2对象类似,可视化是可以存档或共享的文件。但可视化是分析的最终输出,可以表示统计结果表、交互式图表、静态图像或任何视觉数据表示的组合。由于可视化是终端输出,它们不能用作QIIME2中其他分析的输入。在使用时不能作为导入数据。

语义类型(Semantic types)

QIIME2生成的每个对象都有一个与之关联的语义类型。语义类型使QIIME2能够识别适合分析输入的工件。语义类型还可以帮助用户避免语义错误的分析,例如用未标准化的OTU表进行多样性分析。

插件(Plugins)

研究者通过使用插件完成QIIME 2微生物组分析。可根据特定分析需求安装一个或多个插件,例如,如果要对原始序列数据进行拆分,可以使用q2-demux插件,或者如果要执行alpha或beta多样性分析,可以使用q2-diversity插件。任何人都可以开发插件,插件的实质是一个软件包。QIIME2研究团队鼓励第三方开发人员创建自己的插件来提供额外的分析。

方法与可视化(Methods and visualizers)

QIIME 2插件定义的用于进行分析的方法和可视化工具类型。

方法是对QIIME2定义的输入对象进行操作的过程,包括命令和参数,并产生1个或多个标准格式的输出。这一结果可以后续分析或可视化,产生中间或末端的输出。

可视化工具定义了标准输入,包括QIIME 2对象和参数的组合,产生统计表格或可视化图形,方便用户解读,输入为qza格式,输出为qzv文件,文件不仅包括结果,还包括处理的分析命令和参数,方便重复和检查分析过程是否准确。

常用语义类型

FeatureTable[Frequency]:特征表[频率],即OTU表,其中每个值表示对应样本中OTU的出现频率。

FeatureTable[RelativeFrequency]: 特征表[相对频率],其中每个值表示相应样本中OTU的相对丰度,使得每个样本的值之和为1.0。

FeatureTable[PresenceAbsence]: 特征表[存在/缺席],其中每个值表示相应样本中是否存在某个OTU。

FeatureTable[Composition]: 特征表[组成],其中每个值表示相应样本中OTU的频率,并且所有频率都大于零。

Phylogeny[Rooted]: 系统发育[根],有根的系统发育树。

Phylogeny[Unrooted]: 系统发育[无根],无根的系统发育树。

DistanceMatrix: 距离矩阵。

PCoAResults: 主坐标分析PCoA的结果。

SampleData[AlphaDiversity]: 样本数据[Alpha多样性],每个数值均为Alpha多样性结果,基于样本自身的分析。

SampleData[SequencesWithQuality]: 样本数据[带质量的序列],要求序列有质量值,要求序列名称与样品存在对应关系,如为按样品拆分后的数据格式。

SampleData[PairedEndSequencesWithQuality]: 样本数据[带质量的成对末端序列],要求序列ID与样品编号存在对应关系。

FeatureData[Taxonomy]: 特征数据[分类学],每一个特征的分类学信息。

FeatureData[Sequence]: 特征数据[序列],代表性序列。

FeatureData[AlignedSequence]: 特征数据[对齐序列],代表性序列进行多序列比对的结果。

FeatureData[PairedEndSequence]: 特征数据[双端序列],双端序列进行聚类或去噪后,生成的OTU/Feature。

EMPSingleEndSequences: 采用地球微生物组计划标准实验方法产生的单端测序数据。

EMPPairedEndSequences: 采用地球微生物组计划标准实验方法产生的双端测序数据。

TaxonomicClassifier:一种经过训练的分类器,用于物种注释。

目前可用插件

alignment: 用于生成和处理序列对齐。

composition: 用于组合数据分析。

cutadapt: 用于从序列数据中删除适配器序列、引物和其他不需要的序列。

dada2: 使用dada2进行序列质量控制。

deblur: 使用deblur进行序列质量控制。

demux: 用于拆分序列和查看序列质量的插件。

diversity: 用于探索群落多样性。

diversity-lib: 用于计算群落多样性。

emperor: 用于排序绘图。

feature-classifier: 用于训练分类器。

feature-table: 用于按特征表处理样本。

fragment-insertion: 用于扩展系统发育。

gneiss: 用于构建成分模型。

longitudinal: 用于配对样本和时间序列分析。

metadata: 用于处理元数据。

phylogeny: 生成和处理系统发育。

quality-control: 用于特征和序列数据质量控制。

quality-filter: 用于基于PHRED的过滤和修整。

sample-classifier: 用于对样本元数据进行机器学习预测。

taxa: 用于处理功能分类注释的插件。

types: 用于微生物组分析的类型定义。

vsearch: 用于通过vsearch进行聚类和去冗余。

这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

QIIME2进阶一_用QIIME2解析序列,诠释生命

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!

你可能感兴趣的:(环境微生物生物信息分析分享板,生物信息学)