【现学现卖】CHEER与病毒宏基因组数据分析（2）

“ 文献阅读”

CHEER: HierarCHical taxonomic classification for viral mEtagEnomic data via deep leaRning

接上文：【现学现卖】CHEER与病毒宏基因组数据分析（1）

2. 方法

这部分介绍了病毒宏基因组分类的方法，首先介绍了CHEER结构，从目到属的等级分类模型；还介绍了不同层次的分类器；skip-gram based word embedding和one-hotencoding的比较；以及前处理、过滤非病毒源reads的rejectionlayer。

2.1. Hierarchical classification model-等级分类模型

模型结构如下图，最重要的组成是一个由目到属的多个分类器组成的树状模型。为了实现新病毒reads的系统发育分析，分类器是自上而下进行的：top layer是训练的CNN，可以拒绝不属于RNA病毒的reads；过滤后的reads将进入等级分类（目，科，属）模型（hierarchical classification model），后文和图片中形象称之为树模型（tree model）。CHEER的每一level还实施了提前停止功能，可以将分类停止在一个高级分类单位，这个功能可以帮助我们找到新的属，甚至新科、目的新病毒。添加更精细的分类器，将属下划分为种水平也很方便，但是由于CHEER是为了给病毒新种的reads进行系统发育分类，所以在CHEER中没有加入种级分类器。

2.2. The structure of each classifier-每个分类器的结构

树模型中的每个分类器是用CNN实现的，见下图。

2.3. Read encoding-read编码

之前基于深度学习的序列分类模型一般用hot encoding将序列转化为矩阵；或者利用k-mer的组成和频率（k-mer composition and frequency）编码DNA序列，但是不能体现原始read的顺序信息。结合k-mer组成和read序列信息，文中构建了skip-gram based word embedding。如下图：

2.4. Viral read screening based on Open Set Problem-开集分类问题

病毒宏基因组数据不可避免会有来自寄主的污染，所以首先要拒绝非病毒reads。这是一个开集分类问题，即区分read类别，并拒绝其他未知类别（非病毒，不是指新病毒reads）。

2.5. The early stop function in the hierarchical classification-提前停止

模型目的是给新种病毒分配标签，所以CHEER的最后一级是属。但是也有可能发现了新属，新科，甚至新目呢？这是标签分配会提前停止在高一些的分类单元。这也是一个质控，如果分类的可信度不高就不分配标签。如图1中的黄色线条走向，这个read最后分配到科标签就结束了。

2.6. Training and validation datasets-训练与验证

所有数据从ICTV下载，为了保证分类器训练有足够的数据，实验删除了只有一个科的目，只有一个属的科和少于三个种的属。最终使用的数据包含6目，23科，55属。

Shang, J., and Sun,Y. (2020) CHEER: HierarCHical taxonomic classification for viral mEtagEnomicdata via deep leaRning. Methods.

【现学现卖】CHEER与病毒宏基因组数据分析（2）

你可能感兴趣的:(【现学现卖】CHEER与病毒宏基因组数据分析（2）)