论文阅读:基于隐马尔可夫模型的蛋白质多序列比对方法研究

本文来自chatpaper

Basic Information:
• Title: Research on Protein Multiple Sequence Alignment Method Based on Hidden Markov Model (基于隐马尔可夫模型的蛋白质多序列比对方法研究)
• Authors: Zhan Qing
• Affiliation: Harbin Institute of Technology (哈尔滨工业大学)
• Keywords: protein multiple sequence alignment, hidden Markov model, optimization, residue substitution scoring, guide tree construction, refinement
论文简要 :
• 本研究基于隐马尔可夫模型,针对蛋白质多序列比对问题进行了研究,提出了一种优化的残基替换计分方法,并结合优化算法和配分函数计算后验概率,通过渐进式多序列比对得到较优的比对结果。
背景信息:
• 论文背景: 生物序列的相似性对于生物功能的理解非常重要,而多序列比对是发现序列相似性的常用方法之一。然而,多序列比对问题是一个NP问题,无法通过标准的动态规划算法得到最优解。因此,研究人员一直在寻找近似算法来解决这个问题。
• 过去方案: 过去的研究中,渐进式多序列比对是应用最广泛的一类近似算法。该算法通过序列之间的两两比对确定距离矩阵,并根据距离矩阵构建指导树,然后逐步构建多序列比对。然而,现有的多序列比对方法在残基的替换计分、指导树的构建和比对结果的精化等方面存在问题。
• 论文的Motivation: 针对现有多序列比对方法的问题,本研究提出了一种基于隐马尔可夫模型的蛋白质多序列比对方法。该方法通过优化残基替换计分方法,结合优化算法和配分函数计算后验概率,以得到更准确的比对结果。通过这种方法,可以提高蛋白质二级结构预测、系统发生树重建和功能推断等分析的准确性和可靠性。
方法:
• a. 理论背景:
o 本博士论文侧重于基于隐马尔可夫模型的蛋白质多序列比对方法的研究。生物序列的相似性反映了生物功能的相似性以及序列之间和共同祖先之间的遗传差异。多序列比对在生物学中被广泛应用于识别不同序列之间的同源位置。它是一种重要的建模方法,帮助生物学家区分序列中的相关区域,对于蛋白质二级结构预测、系统发育树重建和通过蛋白质域比较进行功能推断具有重要意义。本研究解决了多序列比对的问题,这是一个NP问题,无法通过标准的动态规划算法进行最优求解。渐进式多序列比对是最常用的近似算法类别,它首先通过成对比对确定序列之间的距离矩阵,然后基于距离矩阵构建导引树。最后,根据导引树中的进化距离逐步构建多序列比对,并通过迭代改进比对结果以获得最优结果。总体而言,这种类型的近似算法通过逐步比对序列或序列谱将多序列比对问题转化为顺序成对比对问题,从而找到问题的近似解。本论文解决了现有多序列比对方法研究中的几个问题,包括残基替代评分、导引树构建和比对结果的改进。
• b. 技术路线:
o 本文提出了一种基于隐马尔可夫模型优化和组合的残基替代评分方法。该方法在成对比对的动态规划中使用残基对的后验概率作为替代评分。该方法在提高序列比对准确性方面非常有效,特别适用于低同源性的蛋白质家族。
o 本文引入了一种自适应导引树构建方法,根据蛋白质序列之间的相似度程度使用不同的隐马尔可夫模型构建导引树,以解决当前固定导引树构建方法的局限性。比对的顺序很重要,所提出的方法改善了比对的准确性,特别适用于低同源性的蛋白质家族。
o 此外,本文提出了一种基于垂直分割的重新比对改进方法,解决了当前只考虑水平分割的方法的局限性。实验结果表明,该方法提高了比对结果的准确性,特别适用于具有长氨基/羧基端延伸的蛋白质家族。
o 最后,本文提出了一种综合融合的多序列比对方法,根据蛋白质家族的同源性使用不同的模型和技术进行融合。该方法使用粒子群优化、隐马尔可夫模型和分区函数模型处理低同源性的家族,使用局部和全局隐马尔可夫模型处理高同源性的家族。然后,使用基于垂直分割的重新比对改进方法对比对结果进行改进。实验结果表明,该综合融合方法全面提高了序列比对的准确性,并为下游生物学分析提供了更可靠的基础。
结果:
• a. 详细的实验设置:
o 本文的实验设置包括使用不同的蛋白质家族数据集进行测试,比较不同方法的性能。对于残基替代评分方法,使用隐马尔可夫模型优化和组合的方法进行评估。对于导引树构建方法,使用不同的隐马尔可夫模型根据蛋白质序列的相似度构建导引树。对于重新比对改进方法,使用具有长氨基/羧基端延伸的蛋白质家族进行测试。最后,使用综合融合的多序列比对方法对不同同源性的蛋白质家族进行比对,并使用基于垂直分割的重新比对改进方法对比对结果进行改进。
• b. 详细的实验结果:
o 实验结果表明,本文提出的残基替代评分方法在提高序列比对准确性方面非常有效,特别适用于低同源性的蛋白质家族。自适应导引树构建方法改善了比对的准确性,特别适用于低同源性的蛋白质家族。基于垂直分割的重新比对改进方法提高了比对结果的准确性,特别适用于具有长氨基/羧基端延伸的蛋白质家族。综合融合的多序列比对方法全面提高了序列比对的准确性,并为下游生物学分析提供了更可靠的基础。

论文原址:http://cdmd.cnki.com.cn/Article/CDMD-10213-1020401233.htm
参考:https://chatwithpaper.org/

你可能感兴趣的:(Deep,Learning,笔记,蛋白质序列预测,论文阅读,人工智能,机器学习)