一文看懂病原微生物检测(下篇)

作者:biofan
审稿:童蒙
编辑:amethyst

继一文看懂病原微生物检测(上篇)介绍了样本采集、实验建库及测序的相关内容,这篇让小编带领大家了解一下病原微生物检测的信息分析流程。

信息分析流程

一般而言,mNGS的成功除了严格的实验条件之外呢,还需要严格的信息分析的流程。基本步骤如下:
1.数据质控
2.去除人基因组
3.与数据库比对,鉴定病原微生物
4.生成报告

01 数据质控

数据质控主要包括去除低质量的reads,去除adapter等等,可以用fastp(https://github.com/opengene/fastp)来快速实现数据质控。

02 去除人源污染

由于测序数据中,人源背景占据90% 以上,为了排除人源序列的干扰,所以一般质控之后必须去除人的基因组(如IDseq用多种比对方式去除人的基因组)。

而不同的软件去除人的基因组的比例也有所不同,比如IDseq统计结果(如下图)。

03 鉴定病原微生物

构建病原数据库
鉴定病原微生物的核心是要构建病原微生物的库。一般而言,数据库往往从NCBI进行下载并加以整理。

  • NR/NT数据库

NR(Non-Redundant Protein Sequence Database)是非冗余蛋白库,包含所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。

NT(Nucleotide Sequence Database)是核酸序列数据库,是NR库的子集,NT,NR 数据库可通过ftp://ftp.ncbi.nih.gov/blast/db/FASTA/ 这个链接进行下载整理。

  • RefSeq数据库

RefSeq数据库是参考序列数据库,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences),是具有生物意义上的非冗余基因、转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库。RefSeq数据库可通过ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ 这个链接进行下载整理。

  • Taxonomy物种库

Taxonomy是NCBI的分类数据库,包括大约7万余个物种的名字和种系,这些物种至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学,可从https://ftp.ncbi.nih.gov/pub/taxonomy/ 这个链接进行下载整理。

而关于taxdump文件夹里有相应的readme,对每个文件进行了细致的描述。此外网上一篇文章也进行了详细阐述https://blog.csdn.net/u011262253/article/details/95304930 。

如果是自己动手搭建流程的话,就可以根据不同的比对软件,构建相应的索引啦。

微生物鉴定分析软件
目前包含建库、质控、比对以及出具报告的比较全面软件有OneCodex,Sunbeam,SUPRI 和IDSeq。OneCodex,Sunbeam是需要付费。非流程性的快速检测的软件包括kraken,pathseq,kaiju等等。

我们选择其中几个,介绍一下。
SURPI
SURPI提供比较老2014年的代码,在Github开源(https://github.com/chiulab/SURPI-plus-dist),但建议大家不要尝试,因为当你费劲千辛万苦装完了一系列的的依赖,安装完相应的库后,你会发现流程可执行性很差,以过来人的身份建议还是莫要轻易尝试,很容易竹篮打水一场空,而SURPI最新版本需要付费订阅。


IDSeq
IDseq流程目前属于开源的状态。可以通过Github 进行下载。
IDSeq提供的资源有:

  • idseq-web - Frontend portal
  • idseq-workflows - Bioinformatics workflows
  • idseq-cli - Command line upload interface
  • idseq-bench - Pipeline benchmarking tools (here)
    其参考数据库需要从从Amazon S3下载(https://github.com/chanzuckerberg/idseq-workflows/wiki/Running-WDL-workflows-locally)。

Kraken
kraken软件在不断更新,2014年发布kraken1,2018年发布krakenUniq以及2019年发表了kraken2。kraken是一款速度比较快,准确度较高,安装极为方便的软件。kraken2可从Github 下载安装 (https://github.com/DerrickWood/kraken2)。

Kraken2软件安装即为简单,只需如下命令:

sh install_kraken2.sh ${install_path}
Kraken2构建数据库也很方便,根据不同参数利用kraken2-build即可完成数据库下载和建立索引工作(例如以下命令):
kraken2-build --standard --db $DBNAME
kraken2-build --build --db $DBNAME

kraken检测病原体可以输入fasta或fastq文件。
kraken2 --db $DBNAME seqs.fa
kraken2 --paired --classified-out cseqs#.fq seqs_1.fq seqs_2.fq

最后输出样本的物种注释信息(如下):
C @SRR1106119.1.1 1 2697049 29903 2697049:15

结果共5列:
第一列 "C"/"U":是序列的分类(C:分类;U:未分类);第二列是reads的ID号;第三列是taxonomy ID;第四列和第五列分别是测序reads长度以及kmer的LCA映射。

04 报告生成

检测报告一般需要涵盖病毒、细菌、真菌以及寄生虫检出序列条数,以及覆盖度等信息。

如果mNGS 检测报告中提示某种 / 某些微生物检出序列数较高、基因组覆盖度高,表示检测到该病原微生物 ; 在排除背景菌、污染菌和定植菌的情况下,可以考虑该微生物是致病病原体,可以结合患者的临床特征、当地细菌耐药的流行病学协助指导抗菌药物的选择。

结语

以上便是对病原微生物的简单介绍,希望大家能从背景、临床实验以及信息分析流程对病原微生物检测有一定的了解。后续我们会持续介绍的,请大家多多关注。

参考文献

  1. IDseq—An open source cloud-based pipeline and analysis service for metagenomic pathogen detection and monitoring
  2. A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples
  3. Improved metagenomic analysis with Kraken 2
  4. 宏基因组分析和诊断技术在急危重症感染应用的专家共识

你可能感兴趣的:(一文看懂病原微生物检测(下篇))