【现学现卖】CHEER与病毒宏基因组数据分析(1)

​“ 文献阅读”

CHEER: HierarCHical taxonomic classification for viral mEtagEnomic data via deep leaRning

摘要:

病毒宏基因组数据增长快速,极大加快了新病毒的发现速度,然而reads长度短,数据组成负责且大,让病毒分类变得困难。而且,常用的对NGS数据序列比对的分析方法并不是探索新病毒的理想方法。这篇文章介绍了一个新的病毒等级分类模型CHEER,它可以实现在read水平的病毒分类。


通过结合基于k-mer嵌入的编码,分层组织的CNN(卷积神经网络)和经过精心训练的拒绝层,CHEER能够给新物种的reads分配正确的分类标签。


实验用模拟和真实测序数据测试了CHEER。结果表明,CHEER可比常用的基于比对和无比对的分类分配工具获得更高的准确性。可通过GitHub获得CHEER的源代码,脚本和预训练参数:

https://github.com/KennthShang/CHEER。


综述:

1. 背景和目的

宏基因组测序可以让我们直接从宿主相关或环境样品中得到总基因组的DNA,对一些领域有重大贡献,比如消化系统健康的研究等。细菌是多数宏基因组测序项目的重点,但是今年对病毒的关注也逐渐提高。我们主要关注RNA病毒,因为许多RNA病毒是人类疾病的病原体,比如甲型流感,人类免疫缺陷病毒,埃博拉病毒,新冠病毒等。


宏基因组研究加快了RNA病毒发现速度,2005年鉴定的新RNA病毒为1899个,到了2018年有5561个。发现新病毒的关键是对测序的大量数据进行分析,然后对潜在新病毒进行分类学分组。分析可以在reads或者contigs水平进行。毫无疑问,contigs可以提供更多信息,但是宏基因组数据的装配(metagenomic assembly)是一项巨大的挑战。


与单个基因组装配不同的是,宏基因组装配更容易产生来源于不同物种的嵌合contig,所以宏基因组装配之前,通常会进行read分箱(read binning),将具有相同或者相似分类标签的read分组,以实现更好的装配。


文中实验设计了一个read水平的病毒分类工具(CHEER)用来标记宏基因组数据中的新病毒。这个功能在其他宏基因组系统发育分析工具,如Phymm和PhymmBL中很难实现。CHEER关注的是对新病毒的分类,新病毒没有被测序过,所以没有种(species)标签,预期可以分配的标签是属(genus),科(family)或者目(order)这类的标签。

2. 相关研究

CHEER的原理是read分箱,即将相同分类群的reads分入一个bin。执行的时候,reads与训练过的数据库进行比较。

有很多alignment-free的分类工具主要是针对细菌进行设计的,比如RDP(基于Naïve Bayes模型,给细菌16S基因以及真菌28S基因分配标签),NBC(基于k-mers和bag-of-word模型进行read水平分类)和Phymm(利用interpolated Markov models——IMMs模型对宏基因组read分类)。

VirusSeeker工具可以利用BLASTx将reads分为细菌,噬菌体和其他病毒。

前期研究表明,序列的组成仍然是系统发育分析中一个重要的分析特征,在不同的序列分类问题中,深度学习模型都有很好的应用。特别是卷积神经网络模型(CNN)。

以上相关研究案例中深度学习的成功应用促使了CHEER的诞生。首先CHEER深度学习模型可以给新病毒的reads分配高等级系统发育群标签(比如属,科,目),这个是通过多个CNN分类器实现的;第二,为了保证从read中获得尽可能多的信息,尝试比较了两种编码方法,one-hot和embedding;第三,由于病毒宏基因组数据通常含有来自寄主或其他生物基因的污染,CHEER中设置了前处理步骤,即通过训练以拒绝非病毒reads。

最后将模拟数据和真实测序数据在CHEER上进行测试,结果表明,CHEER模型得到的结果可以媲美现在常用的其他方法,且对新病毒的发现更加有利。


Shang, J., and Sun,Y. (2020) CHEER: HierarCHical taxonomic classification for viral mEtagEnomicdata via deep leaRning. Methods.

你可能感兴趣的:(【现学现卖】CHEER与病毒宏基因组数据分析(1))