Prokka:快速原核基因组、宏基因组基因注释

文章目录

  • Prokka:快速原核基因组注释
    • 热心肠日报
    • 摘要
    • 1 简介
    • 2 描述
      • 2.1 输入
      • 2.2 注释
      • 表1 Prokka使用的功能预测工具
      • 2.3 输出
      • 表2. 输出结果介绍
    • 3 结果
      • 表3. 比较大肠杆菌的注释结果
    • 扩展阅读
    • 猜你喜欢
    • 写在后面

Prokka:快速原核基因组、宏基因组基因注释_第1张图片

Prokka:快速原核基因组注释

Prokka: rapid prokaryotic genome annotation

Bioinformatics, [4.531]

2015-11-26 Method

DOI: https://doi.org/10.1093/bioinformatics/btu153

第一作者:Torsten Seemann

通讯作者:Torsten Seemann

其它作者:无

作者主要单位:

莫纳什大学,维多利亚生物信息学联盟,克莱顿;维多利亚生命科学计算计划生命科学计算中心,澳大利亚,卡尔顿(Victorian Bioinformatics Consortium, Monash University, Clayton 3800 and Life Sciences Computation Centre, Victorian Life Sciences Computation Initiative, Carlton 3053, Australia)

热心肠日报

细菌基因组、宏基因组基因注释流程Prokka

  1. Prokka是原核基因组注释的分析流程,包括基因鉴定、功能注释和基因组配套注释文件生成;
  2. 软件使用Prodigal鉴定编码基因位置,多种软件鉴定多类型非编码RNA,并采用多种方法和数据库依次对基因功能进行注释;
  3. 软件输入文件仅为fasta文件,依赖软件和数据库较多,但支持conda一键安装;
  4. 软件在功能注释步骤较耗时,通常细菌基因组在10分内完成,宏基因组耗时较长可将任务拆分计算;
  5. 结果输出10类文件,满足发表、提交NCBI所需的各类文件需求。

点评:Prokka是一个神奇的软件,只有一个作者,发表5年引用3千多次可谓神作。目前在细菌菌组、宏基因组领域有非常广泛的应用。

摘要

简介:当今DNA测序仪器的混样测序功能和高通量特点,已使细菌全基因组测序成为家常便饭。 后续从头组装为重叠群已得到很好的解决。 使用现有的基于Web和电子邮件的系统,可以缓慢地完成对这些重叠群上所有相关基因组特征进行注释的最后一步,但是这些不适用于敏感数据或集成到计算流程中。 在这里,我们介绍Prokka,这是一种命令行软件工具,可以在典型的台式计算机上大约10分钟内完成细菌基因组草图的注释。 它产生符合标准的输出文件,以供进一步分析或在基因组浏览器中查看。

可用性和实现:Prokka在Perl中实现,可以根据 http://vicbioinformatics.com/ 的开放源GPLv2许可免费获得。

联系方式:[email protected]

1 简介

1 INTRODUCTION

基因组注释是识别和标记基因组序列上所有相关特征的过程(Richardson和Watson,2012)。至少应包括预测的编码区及其推定产物的坐标,但希望超出此范围,应使用非编码RNA,信号肽等。

有各种各样的在线注释服务器(Stewart等,2009)。 NCBI通过电子邮件提供原核基因组自动注释管道服务,周转时间以天为单位。 RAST是用于注释细菌和古细菌基因组的Web服务器,它可以在一天内提供注释结果(Aziz等人,2008年),而xBASE2在数小时内就可以完成类似工作(Chaudhuri等人,2008年)。这些工具类别很有价值,但是在吞吐量或隐私至关重要的情况下它们没有用。

在这里,我们介绍Prokka,这是一种命令行软件工具,可以在任何Unix系统上安装。 Prokka协调了一套现有的软件工具,以实现对基因组细菌序列的丰富而可靠的注释。在可能的情况下,它将利用多个处理核心,并且典型的细菌基因组可以在四核台式计算机上,在约10分钟内进行注释。它非常适合序列分析的迭代模型,并集成到基因组软件管道中。

2 描述

2 DESCRIPTION

2.1 输入

2.1 Input

Prokka要求以FASTA格式的预组装基因组DNA序列为输入文件。 理想的输入是没有间隙的完整序列,但可以预期的是,典型的输入将是由de novo组装软件产生的一组支架序列。 该序列文件是软件的唯一必需参数。

2.2 注释

2.2 Annotation

Prokka依靠外部特征预测工具来识别重叠群中基因组特征的坐标。 表1中列出了这些工具,除Prodigal之外,所有工具均提供了坐标和适当的标签来描述功能。

表1 Prokka使用的功能预测工具

Table 1. Feature prediction tools used by Prokka

Prokka:快速原核基因组、宏基因组基因注释_第2张图片

蛋白质编码基因注释分为两个阶段。Prodigal 鉴定候选基因的坐标,但没有描述推定的基因产物。预测基因编码的传统方法是将其与已知序列的大型数据库(通常在蛋白质序列水平上)进行比较,并转移最佳匹配的注释。

Prokka使用此方法,但以分层方式使用,从较小的可信任数据库开始,移至中等大小但特定领域的数据库,最后移至蛋白质家族的精选模型。默认情况下,以下一系列包含的数据库使用e值阈值10-6

  1. 用户提供的可选的带注释的蛋白质集。预计这些将是值得信赖的精选数据集,并将用作注释的主要来源。使用BLAST+ blastp搜索(Camacho等,2009)。

  2. UniProt中的所有细菌蛋白(Apweiler等人,2004)均具有真实的蛋白或转录本证据,并且不是片段。这是约16000种蛋白质,通常在大多数基因组中覆盖 > 50%的核心基因。 使用BLAST +搜索。

  3. RefSeq中来自特定细菌属的完整细菌基因组的所有蛋白质。这捕获了特定域的命名,并且数据库的大小和质量各不相同,具体取决于该属的流行程度。 BLAST+ 用于此目的,并且是可选的。

  4. 一系列隐马尔可夫模型表征数据库,包括Pfam(Punta等,2012)和TIGRFAM(Haft等,2013)。这是使用HMMER 3.1软件包中的hmmscan(Eddy,2011年)执行的。

  5. 如果找不到匹配项,请标记为“假设蛋白”。

2.3 输出

2.3 Output

软件生成10个输出文件,采用扩展名区别,见表2。

表2. 输出结果介绍

Table 2. Description of Prokka output files

Prokka:快速原核基因组、宏基因组基因注释_第3张图片

3 结果

3 RESULTS

Prokka的设计既准确又快速。 为了评估准确性,我们比较了Prokka,RAST和xBase2对高度精选的大肠杆菌K-12基因组的注释。 所有方法都被告知是大肠杆菌基因组。 表3显示,Prokka产生的总体注释优于RAST和xBase2。 对于研究较少的基因组或原始基因组,此结果可能会有所不同。

表3. 比较大肠杆菌的注释结果

Table 3. Comparison of annotation of E.coli K-12 accession U00096.2

Prokka:快速原核基因组、宏基因组基因注释_第4张图片

Prokka使用并行处理来减少多核计算机上的运行时间。 最耗时的步骤是BLAST +和hmmscan,它们本地分析都支持多个CPU。 但是,Prokka如果在数据子集上运行多个单个CPU线程,则效率更高,这是使用GNU并行实现的(Tange,2011年)。 在我们的64核AMD Opteron服务器上进行的单基因组实验表明,线性加速最多可支持8个核,此后可获得亚线性增益。 但是,对于更大的细菌元基因组数据集,可以观察到更多CPU的线性加速。 在典型的四核台式计算机上注释大肠杆菌K-12基因组大约需要6分钟。

扩展阅读

  • 基因组注释 1重复序列 2非编码和编码基因 3功能注释Prokka
  • 4基因注释Prokka

猜你喜欢

  • 10000+: 菌群分析
    宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
  • 系列教程:微生物组入门 Biostar 微生物组 宏基因组
  • 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
  • 一文读懂:宏基因组 寄生虫益处 进化树
  • 必备技能:提问 搜索 Endnote
  • 文献阅读 热心肠 SemanticScholar Geenmedical
  • 扩增子分析:图表解读 分析流程 统计绘图
  • 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
  • 在线工具:16S预测培养基 生信绘图
  • 科研经验:云笔记 云协作 公众号
  • 编程模板: Shell R Perl
  • 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

你可能感兴趣的:(papers,宏基因组)