Kraken: ultrafast metagenomic sequence classification using exact alignments
Genome Biology, [14.028]
2014-03-03 Method
DOI: https://doi.org/10.1186/gb-2014-15-3-r46
第一作者:Derrick E Wood1,2*
通讯作者:Derrick E Wood1,2*
其它作者:
Steven L Salzberg2,3
作者主要单位:
1美国马里兰大学帕克分校,计算机科学系和生物信息学与计算生物学中心(Department of Computer Science and Center for Bioinformatics and Computational Biology, University of Maryland, College Park, MD, USA)
2美国马里兰州巴尔的摩市约翰霍普金斯大学医学院McKusick-Nathans遗传医学研究所计算生物学中心(Center for Computational Biology, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, MD, USA)
点评:Kraken是物种注释中最快,最庞大的存在,其超快的速度受到大家的喜欢,但标准版超大的内存消耗也非常恐怖。现在已经开发一系列子版本和新版本,如小内存的miniKraken,基于非冗余K-mer的KrakenUniq,还有最的版Kraken2。之前日报介绍过的相关方法有《一个新的宏基因组分类器KrakenUniq》(https://www.mr-gut.cn/papers/read/1079174335)、《Bioinformatics:大幅提高宏基因组分类速度的新算法!》(https://www.mr-gut.cn/papers/read/1058091428)、《MGS-Fast:快速注释菌群宏基因组测序数据的方法》(https://www.mr-gut.cn/papers/read/1068195517)、以及针对临床检测的《PAIPline:鉴定致病菌的临床测序结果分析平台》(https://www.mr-gut.cn/papers/read/1055280911)等可供用户根据具体需求进行选择。
Kraken是一种超快速且高度准确的程序,可为宏基因组DNA序列分配分类标签。 为此任务设计的先前程序相对较慢且计算成本较高,仅能对小的宏基因组数据进行分类,迫使研究人员使用更快的丰度估计程序。 使用k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度。 在最快的模式中,Kraken以每分钟超过410万次读长的速度对100个碱基对读长进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍。 Kraken可在http://ccb.jhu.edu/software/kraken/上下载。
The Kraken sequence classification algorithm
为了对序列进行分类,序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先(lowest common ancestor, LCA)。 与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树,用于分类。 在分类树中,每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。 通过在路径中添加所有权重来对分类树中的每个根到叶(root-to-leaf, RTL)路径进行评分,并且分类树中的最大RTL路径是分类路径(以黄色突出显示的节点)。 该分类路径的叶子(分类树中的橙色,最左边的叶子)是用于查询序列的分类。
Classification accuracy and speed comparison of classification programs for three simulated metagenomes
对于每个宏基因组,显示五个分类器的属性精度和灵敏度,并显示五个程序的速度(PhymmBL是结果的置信过滤版本,MetaPhlAn仅分类映射到其标记基因之一的读长子集 ,因为它是一个丰富的估计程序)。 显示的结果是:
(a)HiSeq宏基因组,由10个细菌测序项目中等比例的HiSeq读长(平均长度μ= 92bp)组成;
(b)MiSeq宏基因组,由10个细菌项目中相同比例的MiSeq读长(μ= 156 bp)组成;
(c)simBA-5宏基因组,由模拟的100-bp读长组成,具有1,967个细菌和古菌分类群的高错误率。
请注意,所有速度图中的水平轴都是对数刻度。
Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes
Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes
对于每个宏基因组,显示五个分类器的属精度和灵敏度,并显示Kraken的速度,以及Kraken(MiniKraken)的小内存版本,两者的快速执行版本(Kraken-Q和MiniKraken-Q)和Kraken 与包含来自GenBank(Kraken-GB)的草案和完整微生物基因组的数据库一起运行。
显示的结果与图2中使用的相同的宏基因组有关。注意,轴的刻度与图2不同,因为Kraken(及其变体)的精度和速度超过了所使用的其他分类器的精度和速度。
(a)HiSeq metagenome。
(b)MiSeq宏基因组。
(c)simBA-5宏基因组。
Taxonomic distribution of saliva microbiome reads classified by Kraken
来自三个个体的唾液样品的序列由Kraken分类。 显示了由Kraken分类的那些读长的分布。
Kraken database structure
要针对数据库查询的每个k-mer都有一个特定的子串,它是最小化器(Minimizer)。 为了在数据库中搜索k聚体,检查数据库中包含具有相同最小化器的k聚体的位置。 通过使用k-mer的最小化器(橙色)和下一个可能的最小化器(蓝色)检查记录起始位置的最小化器偏移数组,可以快速找到这些位置。 在与给定最小化器相关联的记录范围内,记录按其k-mers的词典排序,允许通过在该范围内使用二进制搜索来完成查询。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA