QIIME 的 OTU分类

QIIME提供了3种OTU分类流程, 分别为de novo, closed-referenceopen-reference

De novo OTU picking

pick_de_novo_otus.py 是 De novo OTU 分类方法的主要接口, 主要包括: OTU分类, 物种注释, 序列比对 和 构建进化树。

优点:

  • 可以对所有reads聚类;

缺点:

  • 不支持并行,数据集比较大时运算速度比较慢。

以下情况必须使用 De novo OTU picking:

  • 针对需要分类的reads没有相应的参考序列,比如说不常使用的marker gene。

以下情况不能使用 De novo OTU picking:

  • 你比较的是非重叠扩增子,比如说16S rRNA的 V2 和 V4 区域。
  • 数据集很大。

Closed-reference OTU picking

pick_closed_reference_otus.py 是 Closed-reference OTU picking 分类方法的主要接口, 比对上的 reads 被聚类到参考序列中, 没有比对上的 reads 被扔掉, 不参与后续分析。如果参考数据库中包含物种分类信息,会自动对OTUs进行物种注释。

优点:

  • 速度快, 因为能够并行
  • 建树 和 物种注释 更准确

缺点:

  • 不能发现参考数据库以外的新物种。你只能关注已知物种的多样性。当你基于16S区域研究人体微生物时, Greengenes数据库覆盖了大部分的微生物,你可能只会抛弃掉1-10%的reads;但当你研究未知环境中的微生物时,可能会抛弃掉50-80%的reads。

以下情况必须使用 Closed-reference OTU picking:

  • 你比较的是非重叠扩增子,比如说16S rRNA的 V2 和 V4 区域。你的参考序列必须覆盖这两个区域。

以下情况不能使用 Closed-reference OTU picking:

  • 针对需要分类的reads没有相应的参考序列,比如说不常使用的marker gene。

Open-reference OTU picking

pick_open_reference_otus.py是 Open-reference OTU picking 分类方法的主要接口, 比对上的 reads 被聚类到参考序列中, 没有比对上的 reads 进行 De novo OTU picking。
Open-reference OTU picking 是更好的OTU分类策略。

优点:

  • 所有reads都可以被聚类
  • 速度 (参考数据库中包括大多数物种时)

缺点:

  • 速度 (参考数据库中不包括大部分物种时)

多步OTU分类

当数据量比较大时,我们可以采用多步OTU分类策略,首先使用快速、粗糙的OTU分类方法(比如PrefixSuffix), 然后在使用慢的、准确的OTU聚类方法(比如cdhit)。
具体步骤可以参考Multi-step OTU picking.

参考

  1. OTU picking strategies in QIIME
  2. Multi-step OTU picking

你可能感兴趣的:(QIIME 的 OTU分类)