宏基因组有参分析和无参分析差异

宏基因组有参分析和无参分析差异

    • 分析流程
    • 解决问题
    • 结果差异
    • 宏基因组流程综述

本文参考 宏基因组教程Metagenomics Tutorial (HUMAnN2)

分析流程

  • 有参流程:质控–物种组成和功能组成分析–差异分析及可视化
  • 无参流程:质控–物种分类–序列拼接–基因注释–去冗余–基因定量–功能注释–差异分析及可视化

注:无参分析需要非常大的比对数据库,所以服务器配置最低256G内存,推荐内存512G以上,以保证正常运行

解决问题

有参可以回答的科学问题

  1. 样本中有什么?
    物种组成(包括宿主、细菌、真菌、病毒、原声动物等)
  2. 样品中有哪些功能基因?
    功能基因组成–潜在的功能,注意潜在因为是DNA
  3. 组间物种和功能差异?
    分组有关的物种分类(OTUs/种/属/科)
    和功能(通路/模块/同源簇/基因)

无参可以回答的科学问题

  1. 样本中有什么?
    物种组成(包括宿主、细菌、真菌、病毒、原声动物等)
  2. 样品中有哪些功能基因?
    功能基因组成–潜在的功能,注意潜在因为是DNA
  3. 组间物种和功能差异?
    分组有关的物种分类(种/属/科)
    和功能(通路/模块/同源簇/基因)
  4. 未知菌种基因组拼接

结果差异

有参:
基于marker gene进行序列相似性比对

无参:
基于NCBI数据库注释reads层面,部分软件采用LCA(Lower Common Ancestor最小祖先法)算法

造成结果差异的原因:

  1. 使用的数据库不同,包含物种不同。
  2. 基因组大小。有参使用marker gene,无参使用物种的基因组,不同物种的基因组大小不同,而有参流程如metaphlan2并没有考虑基因组大小的影响。
  3. 基因的拷贝数。在某些情况下,如果一个物种有多套基因拷贝,那么用来进行分析的marker gene在实际情况下可能都不是单拷贝,这样会造成结果的偏差。
  4. 比对算法。无参比对部分软件采用LCA(Lower Common Ancestor最小祖先法)算法

宏基因组流程综述

Nature综述:鸟枪法宏基因组-从取样到数据分析——2万字带你系统入门宏基因组实验和分析
超强综述 | Rob Knight等手把手教你分析菌群数据(全文翻译1.8万字)

你可能感兴趣的:(宏基因组)