Gene and translation initiation site prediction in metagenomic sequences
Bioinformatics, [4.531]
2012-7-12 ORIGINAL PAPER
DOI: https://doi.org/10.1093/bioinformatics/bts429
第一作者:Doug Hyatt1,2*
通讯作者:Doug Hyatt1,2*
其它作者:Philip F. LoCascio1, Loren J. Hauser1,2 and Edward C. Uberbacher1,2
作者主要单位:
1美国田纳西州橡树岭,橡树岭国家实验室,计算生物学与生物信息学小组(Computational Biology and Bioinformatics Group, Oak Ridge National Laboratory, Oak Ridge, TN, 37831, USA)
2美国田纳西州诺克斯维尔,田纳西大学基因组科学技术研究生院(Genome Science and Technology Graduate School, The University of Tennessee, Knoxville, TN, 37996, USA)
宏基因组序列中的基因和翻译起始位点预测
点评:由橡树岭国家实验室计算生物学与生物信息学小组开发的Prodigal是原核生物基因鉴定的流行软件,引用3千多次可谓神作。2012年开发的metaProdigal版本,改进了宏基因组中的基因鉴定能力,支持多线程,可作为宏基因组分析中基因鉴定步骤的推荐软件之一。
宏基因组序列中的基因预测仍然是一个难题。当前的测序技术无法获得足够的覆盖范围来组装典型样品中的单个基因组。因此,测序会产生大量短序列,其确切来源尚不清楚。由于这些序列通常小于基因的平均长度,因此算法必须基于很少的数据进行预测。
我们提出了MetaProdigal,这是基因预测程序Prodigal的宏基因组版本,可以高度准确地识别短而匿名编码序列中的基因。该方法的新颖价值包括增强的翻译起始位点识别,识别使用替代遗传密码的序列和评估每个基因置信度值的能力。我们将MetaProdigal的结果与其他方法进行比较,最后讨论未来的改进。
Prodigal软件可根据通用公共许可从
https://github.com/hyattpd/prodigal 免费获得。
联系方式:[email protected]
补充信息:补充数据可从Bioinformatics在线获得。
Sample gene prediction similarities for Escherichia coli K12
表1显示了大肠杆菌K12与多种生物之间的基因预测相似性计算示例。在这些生物中的每一个上训练Prodigal,然后在大肠杆菌上运行,并使用前述公式计算基因预测相似性。 “ NG”表示第二个训练文件预测的基因数量。 “ 3’M”和“ 5’M”表示在大肠杆菌预测中匹配终止密码子和起始密码子的基因数量。 “XB”表示匹配方程式中的(a’+ d’)/ 600 项目,并表示从最终结果中我们要罚分的基因数量。下一列“M”代表匹配数。然后将其除以4313(大肠杆菌预测中的基因数)以获得灵敏度(Sn),并除以第一列(NG)的数量即可得出精确度(Pr)。最终的基因预测相似度就是Sn和Pr的和谐均值。请注意,在标有星号的情况下,我们使用上述替代公式来计算M,因为开始的<90%是正确的(即5’M / 3’M <0.9)。
从表1可以看出,大肠杆菌S88产生的基因预测与原始物种非常接近,而对于相同物种,这种预测是可以预期的。 高度相似的肠沙门氏菌也表现出色。 事实证明,两个古细菌距离很远,尤其是带有TTG起始基序的多年生青霉。 最后,由于使用完全不同的遗传密码,牛支原体在该表中的表现最差。 艰难梭菌被证明令有感兴趣,因为它无法预测大肠杆菌中的许多真实基因(约15%),但它确实预测的基因大多数是正确的(98%Sp)。
Example of best worst distance and recognizer in cluster
在计算两个簇之间的距离时,我们检查了通过合并它们而创建的新簇。 对于潜在的新聚类中的每个点,我们将其定位在距离它最远的点,即具有最低的基因预测相似性的点,该点对应于初始数据点最少识别的序列。 然后,我们选择具有“最佳”距离的数据点,可以将其粗略地视为合并簇中的最中心点。 我们将此序列标记为簇的“识别器”。 图1显示了使用这些概念的示例簇,其中铜绿假单胞菌将根据其最差的基因预测相似性优于其他两种生物,选择其作为簇的识别器。 在聚类算法的每个步骤中,将两个最接近的簇合并,直到仅剩下一个包含所有1415个序列的簇。
Pseudocode description of the MetaProdigal algorithm
MetaProdigal的算法如图2所示。一个序列到达标准输入,建立了该片段的GC上限和下限,并且仅使用对基因组中指定范围GC含量经过训练的基因组进行训练的训练文件来执行完整的动态规划。 选择得分最高的基因模型集,并将其与每个基因的置信度得分以及有关所用训练文件的详细信息(所用遗传密码,Shine-Dalgarno偏好等)一起输出给用户。 此外,与普通版的Prodigal一样,可以根据要求输出蛋白质翻译,DNA序列和有关序列中每个潜在起始位点的详细信息。
由于多次运行完整的动态规划算法,这对短片段完全有效,因此与现有程序(如MetaGene Annotator和MetaGeneMark)相比,MetaProdigal的运行速度较慢(Noguchi等人,2008; Zhu等人,2010)。 但是,完成的基因组版本仅需约15-20秒即可在单个处理器上分析典型的4M bp基因组,因此,即使每个序列运行5至6个训练文件,宏基因组版本也可以在大约100秒分析4M数据。 可以在单个处理器上7小时内分析1 GB的样本,根据我们的经验,这是可以接受的运行时间,特别是考虑到可以轻松地将样本分割并在多个处理器上运行的情况。
Performance on 51 genome sequences from Refseq
Performance on 2443 experimentally verified genes and start sites
Prodigal confidence estimations for 51 genome sequences from Refseq
使用第2节中描述的置信度度量,如果仅考虑高置信度基因,中等置信度基因等,我们可以将结果细分为置信区间,并检查灵敏度和精度的变化。表4显示了300 bp和700 bp的分析结果。 基于3.1节中描述的MetaGeneMark数据集的700 bp片段。 在此表中,如果仅接受该置信度或更高的基因,则灵敏度(Sn),精度(Pr)和F分数与算法的性能相对应。 例如,Prodigal可以通过仅接受对700 bp片段具有100%置信度的基因来达到99.2%的精确度,但是它无法鉴定出40%具有这种严格限制的真实基因。
在更长的序列长度上,Prodigal的置信度得分与实际表现非常吻合。例如,在700 bp处,具有100%置信度得分的基因的99.2%是真实阳性,而具有90–99.99%的置信度得分的基因的95%是真实阳性。然而,根据我们数据集的Refseq注释,在较小的序列长度(150和300 bp)处,比较会变差,并且在50-59%置信区间内只有38.7%的基因是真正的阳性。这表明该算法的评分功能还有进一步的改进空间,特别是在我们对Bonferroni分数的修改中(Bonferroni,1935年)。也许,该算法应消除更多得分较低的基因,或添加更多规则以根据片段或基因长度来惩罚我们的得分。但是,我们不愿基于单个数据集进行更改,因为可以认为它适合测试集数据。在较大的数据集中检查这些得分较低的基因,看是否应保留它们是未来版本的一个有价值的目标。不管实际表现如何,置信度估计为研究人员提供了一种宝贵的工具,可用来确定是保留还是消除给定的基因模型。我们认为,这种置信度百分比测量是对数字得分的显着改进,数字得分的含义通常很难理解或不适用于实际问题。
我们使用Prodigal构建了用于宏基因组基因预测的开源启发式从头算法。 该程序可以独立分析片段,从而通过使用多个处理器来实现加速。 尽管我们了解测序错误带来的问题,但我们选择专注于其他较少受到关注的问题,例如翻译起始位点识别,替代遗传密码的处理以及基于置信度的分数过滤机制。 在未来的版本中,我们希望更详细地解决排序错误,并以较小的片段长度进一步改善程序的性能。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA