2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)

  • 学习目标
    • 理解使用ClustalW进行多重序列比对(MSA)的三个主要阶段;
    • 描述几种其他的多重序列比对(MSA)程序,了解他们的工作原理,比对它们与ClustalW的异同;
    • 理解进行基准研究的重要性,并且理解关于MSA的几个基本结论;
    • 理解关于基因组区域的MSA的几个问题。
  • 6.1 引言
    • 本章探讨MSA的一般性问题
      • 介绍MSA的五种方法;
      • 认识用于MSA的数据库,比如Pfam;
      • 讨论基因组DNA的多重序列比对。
    • 多重比对序列的定义
      • 多重序列比对就是一组3条或者多条可以部分或整体相匹配的蛋白质(或核酸)序列。
      • 一个蛋白质家族不一定有一个“正确”的比对结果(β球蛋白与肌红蛋白,只共享25%的一致性,但三维结构却几乎一样)
      • 一个多重序列比对的特点是其具有氨基酸残基比对上的列,这种比对可以通过氨基酸残基的特性确定,比如:
        • 存在高度保守的氨基酸残基,如可以形成二硫键的半胱氨酸。
        • 存在保守的motif,如跨膜跨度或免疫球蛋白功能域。
        • 存在蛋白质二级结构的保守特征,如有助于形成α螺旋、β折叠或者过渡域的残基。
        • 存在显示了插入或缺失的一致模式的区域。
    • 多重序列比对的典型应用和实际策略
      • 什么时候使用多重序列比对?为什么使用多重序列比对?
      • 1. 如果所研究的蛋白质与一大组蛋白质相关,那么这组蛋白质成员通常可以提供关于该蛋白可能的功能、结构、进化方面的信息
      • 2. 大多数蛋白质家族又远缘的成员,使用MSA可以比双序列比对更灵敏地发现同源关系。
      • 3. 查看数据库搜索结果时,MSA的格式对于显示保守残基与motif更直观。
      • 4. 评价突变(SNP)是否有害地算法通常依赖DNA和蛋白质地多重序列比对以评估跨物种的保守度——有害的编译倾向于发生在更保守的位点
      • 5. 对于种群数据的研究可以为许多涉及进化、结构及功能的生物问题提供深入的理解
      • 6. 当任意一个物种的完整基因组被测序时,研究的一个主要部分是定义所有基因产物属于哪个蛋白质家族。
      • 7. 系统发育算法使用多重序列比对结果作为原始数据开始,生成系统发育树。
      • 8. 包含转录尹祖结合位点和其他保守元件的共有序列主要基于多重序列比对检测的保守非编码序列进行鉴定。
  • 6.2 物种主要的多重序列比对方法
    • 常用的五种方法
      • 精确法
      • 渐进比对法
      • 迭代法
      • 基于一致性的方法
      • 基于结构的方法
    • 精确法
      Needleman和Wunsch(描述)用于双序列比对的动态规划算法的沿用
      • 沿用双序列比对的动态规划算法,比对矩阵呈现多维,目标是最大化每对序列比对得分的加和。
      • 优劣:精确法可以生成最有比对,但时间和空间上对于过多序列是不可行的。对于N个序列,计算的时间要求是O(2^N * L^N),N是序列数量,L是序列平均长度。与之相比,ClustalW的时间复杂度是O(N^4+L^2),MUSCLE的时间复杂度是O(N^4+NL^2),这些算法很快,但启发式算法并不能保证产生最优比对)
    • 渐进比对方法
      Fitch和Yasunobu(1975)提出,由将其应用于5S核糖RNA序列的比对的Hogeweg和Hesper(1984)描述。Da-Fei Feng和Russell Doolittle(1987.1990)推广
      • 方法策略
        • 需要计算所有待比对的蛋白质序列间的两两比对得分,开始于最相似的序列,然后渐进地添加更多地序列参与比对。
      • 优劣:支持快速地比对成百上千个序列。主要的限制是最终的比对结果依赖于添加序列的顺序。
      • 常用的渐进比对工具
        • ClustalW
          • 网页工具

            2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第1张图片

        • 分三个阶段进行
          • 第一步:一系列双序列比对
            • 第一步,使用动态规划算法产生所有待比对蛋白质间的双序列比对,比如,五个序列产生10个双序列比对得分
            • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第2张图片

          • 第二步:建立引导树
            • 利用距离(或相似度得分)矩阵计算一个引导树
            • 构建引导树的两种主要方式(第七章介绍)
              • 算术平均不加权成对组别法(UPGMA)
              • 邻接法
            • 树的主要特征
              • 拓扑结构(分支的顺序)
              • 进化距离(分支的长度)
            • 树可以用来反映参与多重比对的多个序列相关程度
            • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第3张图片

          • 第三步:基于引导树上出现的顺序进行一系列步骤,创建多重比对序列
            • 算法引导从树中选择两个最相近的序列进行双序列比对。这两个序列出现在树的叶子节点,即现存序列的位置。下一个序列被加入双序列比对或者被用来做另一个双序列比对。比对渐进地进行,直到达到树的根结点,所有的序列都完成比对。
          • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第4张图片

    • 迭代法
      • 迭代法利用渐进比对的策略计算一个次优解,之后利用动态规划或其他方法修正比对结果直到解收敛。 一个初始树被划分并且重新比对了两侧的谱。因此这些方法构造一个初始比对,之后修改并尝试改进它,利用一些目标函数来最大化分数.
        • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第5张图片

      • 渐进比对法存在局限性,在比对过程种一旦出现错误就无法更正,迭代法可以克服这一限制。
      • MAFFT多重序列比对包,包括渐进比对法:
        • 类似ClustalW的单轮渐进法,在细化步骤使用一个快速傅立叶变换;
        • 双轮方法,首先生成多重序列比对,之后通过比对结果计算细化的剧烈,形成二次渐进比对;
        • PartTree渐进式比对:使用匹配的6元组来计算成对距离,这种方法被叫做k-mer计数。
        • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第6张图片

      • MUSCLE操作分为三个阶段
        • 使用渐进多重序列比对产生一个粗略的比对结果
        • 改进树并且构建了一个新的渐进比对
        • 通过系统地粪狗树以获得子集,引导树被迭代精炼;删除树的一条边(或枝)以创建二分树。
        • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第7张图片

    • 基于一致性
      • 主要思想:对于序列x,y和z,如果残基x比对上z,z比对上y,那么x应该比对上y。
      • 基于一致性的方法在对双序列比对进行打分时参考了多个序列的信息内容。这种方法的独特之处在于它整合了来自多重序列比对的证据取直到双序列比对。
      • ProbCons算法包含五步
        • 该算法计算每一对序列的后验概率矩阵
        • 计算每一个双序列比对的准确度期望
        • 利用“概率一致性转换”对每一个双序列比对的质量得分进行重新估计
        • 利用层次聚类法构建一个准确度期望的引导树
        • 按照引导树给出的顺序,渐进地对序列进行比对
        • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第8张图片

    • 基于结构
      • 使用一个或多个待比对蛋白质地三维结构信息可能提高多重序列比对的准确度。可以让用户整合结构信息的算法包括PRALINE和T-COFFEE的Expresso模块
      • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第9张图片

  • 6.3 用标准数据集进行研究:方法,发现和挑战
    • 使用标准集对各种算法,软件进行研究可以获得“金标准”的正确答案,这个答案由高可信度的真阳性关系组成,之后比较软件程序去客观地评判哪一个是最精确的。
    • 评价标准数据集的质量的因素:
      • 关联性:基准数据集应该包括用户在使用软件时实际遇到的任务
      • 可解性:任务不应该太简单或者太难
      • 可伸缩性:有些任务是小规模的,而有些任务序列分析大量的蛋白质
      • 可获得性:基准数据库应该是公开的
      • 独立性:用于构建基准数据库的方法不应该被用于进行序列比对
      • 可拓展:基准数据集应该随着时间的改变而拓展以适应新的问题
    • 公认的可用于多重序列比对的基准数据集:BAliBASE、HOMSTRAD、OXBench、PREFAB、SABmark以及IRMBASE。常用方法是基于已知三维结构的蛋白质获得比对结果,三维结构是通过X射线衍射结晶技术获得的。
    • MSA算法在一个基准数据集中的表现可以通过一些客观的打分函数评估,常用的方法时衡量成对加和得分。
  • 欢迎加入生信交流群一起交流,二维码过期可加VX:bbplayer2021
  • 2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)_第10张图片

 

你可能感兴趣的:(生物信息学与功能基因组学,读书笔记,生物信息,算法)