【现学现卖】宏基因组数据与深度学习

现在测序技术发展快速,序列数据越来越多,NCBI中Sequence Read Archive (SRA) 数据库中的reads成倍地增长。

一些研究中,测序样品很多是采集于环境或者寄主的某个组织,包含多种微生物的基因组,又称为宏基因组。

当拿到了这些数据,如果用传统的assemble,blast,mapping的方法可能不利于找到样品中的新物种。

比如我提取了真菌的dsRNA,送测序,得到几十万个reads,有一些reads拼装成contigs,通过与已知数据库比对,可以找到reference virus;但是还有一些可能无法拼装或者没有对应的参考序列。

宏基因组数据reads数量大,长度短、构成多样,传统的序列比对法分析并不理想(工作量大,可能错失一些新病毒等等)。

刚刚看到一篇文章,利用deep learning构建了一个病毒分类模型CHEER(GitHub: https://github.com/KennthShang/CHEER),进行read水平上的病毒分类。

一个CHEER的简单流程图

虽然还有很多没有看太明白,但是觉得确实这种方法分析可以弥补传统方法的不足,一起继续学习吧(之后想用我自己之前的460,000个reads数据试一试,到时候再分析给大家哦)。

相关文章:

Shang, Jiayu, and Yanni Sun. "CHEER: hierarCHical taxonomic classification for viral mEtagEnomic data via deep leaRning." Methods (2020).

Ren, Jie, et al. "Identifying viruses from metagenomic data by deep learning." arXiv preprint arXiv:1806.07810 (2018).

Ren, Jie, et al. "Identifying viruses from metagenomic data using deep learning." Quantitative Biology (2020): 1-14.

你可能感兴趣的:(【现学现卖】宏基因组数据与深度学习)