Prokka: rapid prokaryotic genome annotation
Bioinformatics, [4.531]
2015-11-26 Method
DOI: https://doi.org/10.1093/bioinformatics/btu153
第一作者:Torsten Seemann
通讯作者:Torsten Seemann
其它作者:无
作者主要单位:
莫纳什大学,维多利亚生物信息学联盟,克莱顿;维多利亚生命科学计算计划生命科学计算中心,澳大利亚,卡尔顿(Victorian Bioinformatics Consortium, Monash University, Clayton 3800 and Life Sciences Computation Centre, Victorian Life Sciences Computation Initiative, Carlton 3053, Australia)
细菌基因组、宏基因组基因注释流程Prokka
点评:Prokka是一个神奇的软件,只有一个作者,发表5年引用3千多次可谓神作。目前在细菌菌组、宏基因组领域有非常广泛的应用。
简介:当今DNA测序仪器的混样测序功能和高通量特点,已使细菌全基因组测序成为家常便饭。 后续从头组装为重叠群已得到很好的解决。 使用现有的基于Web和电子邮件的系统,可以缓慢地完成对这些重叠群上所有相关基因组特征进行注释的最后一步,但是这些不适用于敏感数据或集成到计算流程中。 在这里,我们介绍Prokka,这是一种命令行软件工具,可以在典型的台式计算机上大约10分钟内完成细菌基因组草图的注释。 它产生符合标准的输出文件,以供进一步分析或在基因组浏览器中查看。
可用性和实现:Prokka在Perl中实现,可以根据 http://vicbioinformatics.com/ 的开放源GPLv2许可免费获得。
联系方式:[email protected]
1 INTRODUCTION
基因组注释是识别和标记基因组序列上所有相关特征的过程(Richardson和Watson,2012)。至少应包括预测的编码区及其推定产物的坐标,但希望超出此范围,应使用非编码RNA,信号肽等。
有各种各样的在线注释服务器(Stewart等,2009)。 NCBI通过电子邮件提供原核基因组自动注释管道服务,周转时间以天为单位。 RAST是用于注释细菌和古细菌基因组的Web服务器,它可以在一天内提供注释结果(Aziz等人,2008年),而xBASE2在数小时内就可以完成类似工作(Chaudhuri等人,2008年)。这些工具类别很有价值,但是在吞吐量或隐私至关重要的情况下它们没有用。
在这里,我们介绍Prokka,这是一种命令行软件工具,可以在任何Unix系统上安装。 Prokka协调了一套现有的软件工具,以实现对基因组细菌序列的丰富而可靠的注释。在可能的情况下,它将利用多个处理核心,并且典型的细菌基因组可以在四核台式计算机上,在约10分钟内进行注释。它非常适合序列分析的迭代模型,并集成到基因组软件管道中。
2 DESCRIPTION
2.1 Input
Prokka要求以FASTA格式的预组装基因组DNA序列为输入文件。 理想的输入是没有间隙的完整序列,但可以预期的是,典型的输入将是由de novo组装软件产生的一组支架序列。 该序列文件是软件的唯一必需参数。
2.2 Annotation
Prokka依靠外部特征预测工具来识别重叠群中基因组特征的坐标。 表1中列出了这些工具,除Prodigal之外,所有工具均提供了坐标和适当的标签来描述功能。
Table 1. Feature prediction tools used by Prokka
蛋白质编码基因注释分为两个阶段。Prodigal 鉴定候选基因的坐标,但没有描述推定的基因产物。预测基因编码的传统方法是将其与已知序列的大型数据库(通常在蛋白质序列水平上)进行比较,并转移最佳匹配的注释。
Prokka使用此方法,但以分层方式使用,从较小的可信任数据库开始,移至中等大小但特定领域的数据库,最后移至蛋白质家族的精选模型。默认情况下,以下一系列包含的数据库使用e值阈值10-6:
用户提供的可选的带注释的蛋白质集。预计这些将是值得信赖的精选数据集,并将用作注释的主要来源。使用BLAST+ blastp搜索(Camacho等,2009)。
UniProt中的所有细菌蛋白(Apweiler等人,2004)均具有真实的蛋白或转录本证据,并且不是片段。这是约16000种蛋白质,通常在大多数基因组中覆盖 > 50%的核心基因。 使用BLAST +搜索。
RefSeq中来自特定细菌属的完整细菌基因组的所有蛋白质。这捕获了特定域的命名,并且数据库的大小和质量各不相同,具体取决于该属的流行程度。 BLAST+ 用于此目的,并且是可选的。
一系列隐马尔可夫模型表征数据库,包括Pfam(Punta等,2012)和TIGRFAM(Haft等,2013)。这是使用HMMER 3.1软件包中的hmmscan(Eddy,2011年)执行的。
如果找不到匹配项,请标记为“假设蛋白”。
2.3 Output
软件生成10个输出文件,采用扩展名区别,见表2。
Table 2. Description of Prokka output files
3 RESULTS
Prokka的设计既准确又快速。 为了评估准确性,我们比较了Prokka,RAST和xBase2对高度精选的大肠杆菌K-12基因组的注释。 所有方法都被告知是大肠杆菌基因组。 表3显示,Prokka产生的总体注释优于RAST和xBase2。 对于研究较少的基因组或原始基因组,此结果可能会有所不同。
Table 3. Comparison of annotation of E.coli K-12 accession U00096.2
Prokka使用并行处理来减少多核计算机上的运行时间。 最耗时的步骤是BLAST +和hmmscan,它们本地分析都支持多个CPU。 但是,Prokka如果在数据子集上运行多个单个CPU线程,则效率更高,这是使用GNU并行实现的(Tange,2011年)。 在我们的64核AMD Opteron服务器上进行的单基因组实验表明,线性加速最多可支持8个核,此后可获得亚线性增益。 但是,对于更大的细菌元基因组数据集,可以观察到更多CPU的线性加速。 在典型的四核台式计算机上注释大肠杆菌K-12基因组大约需要6分钟。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA