刘永鑫Adam

metaProdigal：宏基因组序列中的基因和翻译起始位点预测

文章目录

metaProdigal：宏基因组序列中的基因和翻译起始位点预测

热心肠日报
摘要

动机 Motivation
结果 Results
可用性 Availability

主要结果

表1. 大肠杆菌K12的样本基因预测相似性
图1. 簇中最佳最差距离和识别器的示例
图2. MetaProdigal的算法描述
表2. Refseq的51个基因组序列的分析上的表现
表3. 在2443个实验验证的基因上预测起始位点的表现
表4. 基于51个基因组在不同置信度下的估计

4. 结论 CONCLUSION
扩展阅读
猜你喜欢
写在后面

metaProdigal：宏基因组序列中的基因和翻译起始位点预测

Gene and translation initiation site prediction in metagenomic sequences

Bioinformatics, [4.531]

2012-7-12 ORIGINAL PAPER

DOI: https://doi.org/10.1093/bioinformatics/bts429

第一作者：Doug Hyatt^1,2*

通讯作者：Doug Hyatt^1,2*

其它作者：Philip F. LoCascio1, Loren J. Hauser1,2 and Edward C. Uberbacher1,2

作者主要单位：

¹美国田纳西州橡树岭，橡树岭国家实验室，计算生物学与生物信息学小组(Computational Biology and Bioinformatics Group, Oak Ridge National Laboratory, Oak Ridge, TN, 37831, USA)

²美国田纳西州诺克斯维尔，田纳西大学基因组科学技术研究生院(Genome Science and Technology Graduate School, The University of Tennessee, Knoxville, TN, 37996, USA)

热心肠日报

宏基因组序列中的基因和翻译起始位点预测

metaProdigal是Prodigal的宏基因组中预测基因的专业版本，可实现高度准确地识别短和匿名编码序列中的基因；
该方法的新颖价值包括增强的翻译起始位点识别，识别使用替代遗传密码的序列和评估每个基因置信度值的能力；
可以根据要求输出蛋白质翻译，DNA序列和有关序列中每个潜在起始位点的详细信息；
软件运行速度快，支持多线程加速，原生安装或conda安装都非常方便，单线程下7小时可处理1GB数据。

点评：由橡树岭国家实验室计算生物学与生物信息学小组开发的Prodigal是原核生物基因鉴定的流行软件，引用3千多次可谓神作。2012年开发的metaProdigal版本，改进了宏基因组中的基因鉴定能力，支持多线程，可作为宏基因组分析中基因鉴定步骤的推荐软件之一。

摘要

动机 Motivation

宏基因组序列中的基因预测仍然是一个难题。当前的测序技术无法获得足够的覆盖范围来组装典型样品中的单个基因组。因此，测序会产生大量短序列，其确切来源尚不清楚。由于这些序列通常小于基因的平均长度，因此算法必须基于很少的数据进行预测。

结果 Results

我们提出了MetaProdigal，这是基因预测程序Prodigal的宏基因组版本，可以高度准确地识别短而匿名编码序列中的基因。该方法的新颖价值包括增强的翻译起始位点识别，识别使用替代遗传密码的序列和评估每个基因置信度值的能力。我们将MetaProdigal的结果与其他方法进行比较，最后讨论未来的改进。

可用性 Availability

Prodigal软件可根据通用公共许可从
https://github.com/hyattpd/prodigal 免费获得。

联系方式：[email protected]

补充信息：补充数据可从Bioinformatics在线获得。

主要结果

表1. 大肠杆菌K12的样本基因预测相似性

Sample gene prediction similarities for Escherichia coli K12

表1显示了大肠杆菌K12与多种生物之间的基因预测相似性计算示例。在这些生物中的每一个上训练Prodigal，然后在大肠杆菌上运行，并使用前述公式计算基因预测相似性。 “ NG”表示第二个训练文件预测的基因数量。 “ 3’M”和“ 5’M”表示在大肠杆菌预测中匹配终止密码子和起始密码子的基因数量。 “XB”表示匹配方程式中的（a’+ d’）/ 600 项目，并表示从最终结果中我们要罚分的基因数量。下一列“M”代表匹配数。然后将其除以4313（大肠杆菌预测中的基因数）以获得灵敏度(Sn)，并除以第一列（NG）的数量即可得出精确度(Pr)。最终的基因预测相似度就是Sn和Pr的和谐均值。请注意，在标有星号的情况下，我们使用上述替代公式来计算M，因为开始的<90％是正确的（即5’M / 3’M <0.9）。

从表1可以看出，大肠杆菌S88产生的基因预测与原始物种非常接近，而对于相同物种，这种预测是可以预期的。高度相似的肠沙门氏菌也表现出色。事实证明，两个古细菌距离很远，尤其是带有TTG起始基序的多年生青霉。最后，由于使用完全不同的遗传密码，牛支原体在该表中的表现最差。艰难梭菌被证明令有感兴趣，因为它无法预测大肠杆菌中的许多真实基因（约15％），但它确实预测的基因大多数是正确的（98％Sp）。

图1. 簇中最佳最差距离和识别器的示例

Example of best worst distance and recognizer in cluster

在计算两个簇之间的距离时，我们检查了通过合并它们而创建的新簇。对于潜在的新聚类中的每个点，我们将其定位在距离它最远的点，即具有最低的基因预测相似性的点，该点对应于初始数据点最少识别的序列。然后，我们选择具有“最佳”距离的数据点，可以将其粗略地视为合并簇中的最中心点。我们将此序列标记为簇的“识别器”。图1显示了使用这些概念的示例簇，其中铜绿假单胞菌将根据其最差的基因预测相似性优于其他两种生物，选择其作为簇的识别器。在聚类算法的每个步骤中，将两个最接近的簇合并，直到仅剩下一个包含所有1415个序列的簇。

图2. MetaProdigal的算法描述

Pseudocode description of the MetaProdigal algorithm

MetaProdigal的算法如图2所示。一个序列到达标准输入，建立了该片段的GC上限和下限，并且仅使用对基因组中指定范围GC含量经过训练的基因组进行训练的训练文件来执行完整的动态规划。选择得分最高的基因模型集，并将其与每个基因的置信度得分以及有关所用训练文件的详细信息（所用遗传密码，Shine-Dalgarno偏好等）一起输出给用户。此外，与普通版的Prodigal一样，可以根据要求输出蛋白质翻译，DNA序列和有关序列中每个潜在起始位点的详细信息。

由于多次运行完整的动态规划算法，这对短片段完全有效，因此与现有程序（如MetaGene Annotator和MetaGeneMark）相比，MetaProdigal的运行速度较慢（Noguchi等人，2008； Zhu等人，2010）。但是，完成的基因组版本仅需约15-20秒即可在单个处理器上分析典型的4M bp基因组，因此，即使每个序列运行5至6个训练文件，宏基因组版本也可以在大约100秒分析4M数据。可以在单个处理器上7小时内分析1 GB的样本，根据我们的经验，这是可以接受的运行时间，特别是考虑到可以轻松地将样本分割并在多个处理器上运行的情况。

表2. Refseq的51个基因组序列的分析上的表现

Performance on 51 genome sequences from Refseq

表3. 在2443个实验验证的基因上预测起始位点的表现

Performance on 2443 experimentally verified genes and start sites

表4. 基于51个基因组在不同置信度下的估计

Prodigal confidence estimations for 51 genome sequences from Refseq

使用第2节中描述的置信度度量，如果仅考虑高置信度基因，中等置信度基因等，我们可以将结果细分为置信区间，并检查灵敏度和精度的变化。表4显示了300 bp和700 bp的分析结果。基于3.1节中描述的MetaGeneMark数据集的700 bp片段。在此表中，如果仅接受该置信度或更高的基因，则灵敏度（Sn），精度（Pr）和F分数与算法的性能相对应。例如，Prodigal可以通过仅接受对700 bp片段具有100％置信度的基因来达到99.2％的精确度，但是它无法鉴定出40％具有这种严格限制的真实基因。

在更长的序列长度上，Prodigal的置信度得分与实际表现非常吻合。例如，在700 bp处，具有100％置信度得分的基因的99.2％是真实阳性，而具有90–99.99％的置信度得分的基因的95％是真实阳性。然而，根据我们数据集的Refseq注释，在较小的序列长度（150和300 bp）处，比较会变差，并且在50-59％置信区间内只有38.7％的基因是真正的阳性。这表明该算法的评分功能还有进一步的改进空间，特别是在我们对Bonferroni分数的修改中（Bonferroni，1935年）。也许，该算法应消除更多得分较低的基因，或添加更多规则以根据片段或基因长度来惩罚我们的得分。但是，我们不愿基于单个数据集进行更改，因为可以认为它适合测试集数据。在较大的数据集中检查这些得分较低的基因，看是否应保留它们是未来版本的一个有价值的目标。不管实际表现如何，置信度估计为研究人员提供了一种宝贵的工具，可用来确定是保留还是消除给定的基因模型。我们认为，这种置信度百分比测量是对数字得分的显着改进，数字得分的含义通常很难理解或不适用于实际问题。

4. 结论 CONCLUSION

我们使用Prodigal构建了用于宏基因组基因预测的开源启发式从头算法。该程序可以独立分析片段，从而通过使用多个处理器来实现加速。尽管我们了解测序错误带来的问题，但我们选择专注于其他较少受到关注的问题，例如翻译起始位点识别，替代遗传密码的处理以及基于置信度的分数过滤机制。在未来的版本中，我们希望更详细地解决排序错误，并以较小的片段长度进一步改善程序的性能。

扩展阅读

基因注释Prokka
Prokka：快速原核基因组、宏基因组基因注释
Prodigal：原核基因识别和翻译起始位点鉴定

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~ 四口鲸鱼爱吃盐文献阅读安全 transformer 深度学习对抗样本神经网络视觉语言模型后门攻击
汇总结果来源：CVPR2025AcceptedPapers若文中出现的论文链接和GitHub链接点不开，则说明还未公布，在公布后笔者会及时添加.若笔者未及时添加，欢迎读者告知.文章根据题目关键词搜索，可能会有遗漏.若笔者出现遗漏，欢迎告知.部分文章还未公布正文，只有名称.MindtheGap：通过查询更新分析检测正在进行中的黑盒对抗攻击MindtheGap:DetectingBlack-boxAd
第81期 | GPTSecurity周报 aigc网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.大语言模型与代码安
强化学习与网络安全资源-论文和环境 AI拉呱 web安全安全
TableofContentsRL-EnvironmentsPapersBooksBlogpostsTalksMiscellaneous↑EnvironmentsPentestingTrainingFrameworkforReinforcementLearningAgents(PenGym)TheARCDPrimary-levelAITrainingEnvironment(PrimAITE)CSL
arxiv论文爬虫 plasma-deeplearning pycharm ar 爬虫
文章目录readmeArxivInterestingPapersCrawlerDescription:Thetimerangeofthepaperdownloading:Themodeofthedownloading:Therootofthedownloading:Thedomainofthedownloading:Thecustomizedkeywords:Thecustomizedkeywor
KDD2015,Accepted Papers weixin_34124651 大数据人工智能数据库
AcceptedPapersbySessionResearchSessionRT01:SocialandGraphs1Tuesday10:20am–12:00pm|Level3–BallroomAChair:TanyaBerger-WolfEfficientAlgorithmsforPublic-PrivateSocialNetworksFlavioChierichetti,SapienzaUni
【AI视野·今日NLP 自然语言处理论文速览第八十期】Fri, 1 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Fri,1Mar2024Totally67papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLooseLIPSSinkShips:AskingQuestionsinBattleshipwithLanguage-InformedProgramSamplingAuthorsGabrielGrand,V
【CVPR 2021】Knowledge Review：知识蒸馏新解法 BIT可达鸭深度学习人工智能计算机视觉模型压缩知识蒸馏
【CVPR2021】KnowledgeReview：知识蒸馏新解法论文地址：主要问题：主要思路：符号假设：具体实现：实验结果：关注我的公众号：联系作者：论文地址：https://jiaya.me/papers/kdreview_cvpr21.pdf主要问题：目前大部分关于KD的方法都是基于相同层或者相同Block之间的知识迁移。但是Teacher往往深层表示抽象的语义信息，底层表示简单的知识的信息
InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens 伊织code #Paper Reading InfiniteHiP 推理 GPU LLM token
InfiniteHiP:ExtendingLanguageModelContextUpto3MillionTokensonaSingleGPUPaper:https://huggingface.co/papers/2502.08910Sourcecode:https://github.com/DeepAuto-AI/hip-attention/SGLangIntegrationavailablen
Stable Diffusion创始人：DeepSeek没有抄袭！ Datawhale stable diffusion 人工智能
Datawhale分享观点：EmadMostaque，编译：Datawhale视频中英对照如下：Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.蒸馏技术并不是什么新事物，而且从模型的角度来看，没有办法完全阻止这种情况的发生。Butifyouactuallylookatwhatthepapersays
利用ChatGPT阅读文献：指南与技巧摆烂大大王 chatgpt MathorCup数学建模 chatgpt 论文阅读人工智能学习
阅读文献对于学术研究和深度学习至关重要。ChatGPT作为一款高级人工智能聊天机器人，可以帮助用户更高效地阅读和理解文献。以下是如何利用ChatGPT阅读文献的一些指南和技巧。1.文献检索在你阅读文献之前，首先需要找到相关文献。可以使用如下命令让ChatGPT帮助你进行文献检索：/findpapers关键词或主题例如，如果你需要寻找关于人工智能在医疗领域应用的文献，可以输入：/findpapers
OpenAI的编程语言和框架，给程序员带来了帮助有哪些 API技术大佬Anzexi58 OpenAI 人工智能人工智能深度学习
OpenAI是一个人工智能开发公司，成立于2015年，总部位于美国旧金山。这家公司致力于研究和开发先进的人工智能技术，旨在将这些技术应用到解决全球一些最棘手的问题上。OpenAI以其卓越的技术和实验室出品的groundbreakingAIpapers而闻名。OpenAI的研究涉及深度学习、自然语言处理、视觉感知、强化学习等多个领域，并已在各种应用中取得了令人瞩目的成果。例如，在机器人领域，Open
CT-Mamba:一种用于低剂量CT降噪的混合卷积状态空间模型论文解读 ZcZc__1 深度学习人工智能图像处理
论文：CT-Mamba:AHybridConvolutionalStateSpaceModelforLow-DoseCTDenoising代码：zy2219105/CT-Mamba，作者称将会在论文正式发表后提供。本文参考了该网站，其对CT-Mamba提供了更详细的描述：https://www.aimodels.fyi/papers/arxiv/ct-mamba-hybrid-convolutio
第76期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.关于使用大语言模型
第84期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能 gpt AIGC
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用数据流路径对大
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
第84期 | GPTSecurity周报 aigc
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用数据流路径对大
awesome-Gaussian-Splatting Jfeng7810 3d
Awesome3DGaussianSplattingResourcesAcuratedlistofpapersandopen-sourceresourcesfocusedon3DGaussianSplatting,intendedtokeeppacewiththeanticipatedsurgeofresearchinthecomingmonths.Ifyouhaveanyadditionsors
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
第60期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能语言模型网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.映射你的模型：评估
第83期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
第78期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.ChatNVD：借
第81期 | GPTSecurity周报 aigc网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.大语言模型与代码安
第83期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
第79期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
IJCAI2024 无脑敲代码，bug漫天飞会议
CallforPapers–IJCAI2024重要日期(所有时间都是地球上的任何地方，UTC-12)摘要提交截止日期:2024年1月10日作者信息截止日期:2024年1月16日论文全文截止日期:2024年1月17日附录和重新提交信息截止日期:2024年1月24日简易拒绝通知:2024年2月22日作者回复时间:2024年3月18日至21日书面通知:2024年4月16日会议:2024年8月3日星期六至
第66期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用高级大语言模型
第65期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全语言模型
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.基于第一性原理的大
特征点提取与匹配原文论文下载长沙有肥鱼视觉SLAM十四讲计算机视觉
ORB原文下载链接：(PDF)ORB:anefficientalternativetoSIFTorSURFSIFT原文下载链接：https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdfSURF原文下载链接:https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Bay08.pdfORB和AKAZE对比论文下载链接：h
今日欧美圈：Sam Smith专辑改期，The Box狂揽B榜十周冠胡萝卜音乐
新一期Billboard单曲榜上，《TheBox》狂揽十周冠，DuaLipa热单《Don'tStartNow》升至亚军，LilUziVert有三首歌曲进入前十。SamSmith新专辑《ToDieFor》发行日期推迟到6月5日。新单要来啦！LaurenJauregui宣布新单《Lento》将在3月20日发行。HarryStyles登上BeautyPapers写真释出！在《冰雪奇缘2》中为Honeym
英语精读笔记.新概念第三册(5)The facts确切数字英文研习社
文章原文：Editorsofnewspapersandmagazinesoftengotoextremestoprovidetheirreaderswithunimportantfactsandstatistics.Lastyearajournalisthadbeeninstructedbyawell-knownmagazinetowriteanarticleonthepresident'spal
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

metaProdigal：宏基因组序列中的基因和翻译起始位点预测

文章目录

metaProdigal：宏基因组序列中的基因和翻译起始位点预测

热心肠日报

摘要

动机 Motivation

结果 Results

可用性 Availability

主要结果

表1. 大肠杆菌K12的样本基因预测相似性

图1. 簇中最佳最差距离和识别器的示例

图2. MetaProdigal的算法描述

表2. Refseq的51个基因组序列的分析上的表现

表3. 在2443个实验验证的基因上预测起始位点的表现

表4. 基于51个基因组在不同置信度下的估计

4. 结论 CONCLUSION

扩展阅读

猜你喜欢

写在后面

你可能感兴趣的:(papers)