2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)

  • 全局序列比对:Needleman-Wunsch算法
    • 该算法的结果是最优化的,但并不是所有可能的比对情况都需要被评估。执行一个穷尽的双序列比对算法需要太多计算资源
    • 算法三步骤
      • step1:设置一个矩阵
        • 在二维矩阵中比较两条序列
          • 2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第1张图片
        • X,Y轴分别为第一条,第二条序列
        • 两条一致的序列的最佳比对可简单地用从左上角到右下角的对角线表示
        • 错配仍然在对角线上,但评分会变低
        • 空位在这个矩阵中用水平或垂直路径表示
      • step2:给矩阵打分
        • 创建打分矩阵
          • 创建一个(m+1)*(n+1)2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第2张图片
        • 定义打分系统
          • 完美匹配+1
          • 错配-3
          • 两条序列引入空位-2
        • 制定移动规则
          • i和j必须增加
          • 允许空位在任意几个位置连续出现;单独空位和延长空位罚分可能不同
          • 指定分数来自打分矩阵
      • step3:确定最优的比对
        • 比对通过回溯法确定:即从矩阵右下方开始。
          • 2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第3张图片
    • 总结
      • Needleman-Wunsch算法是动态规划算法的一个例子。这表明最佳路径(最佳比对)是通过逐步延长最佳子路径得到的,即在比对的每一步都选择拥有最佳分数的残基对,最终的目标是沿着矩阵对角线找到一条拥有最大分值的路径,这条路径指的就是最佳比对。
      • 2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第4张图片
  • 局部序列比对:Smith-Waterman算法
    • 局部比对Smith-Waterman算法是最严格的两条蛋白质或者两条DNA序列部分比对的算法
    • 引入规则:如果所有其他打分选择为负值,那么该单元格评分为0。S(i,j)从以下四个可能值中选出最大值
      • 1.单元格(i-1,j-1)(对角线左上角单元格)加上单元格S[i,j]的分值
      • 2.S[i-1,j]减去一个空位罚分
      • 3.S[i,j-1]减去一个空位罚分
      • 4.0
    • 得分最大的比对可以从矩阵中任意位置开始和结束
      • 2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第5张图片
    • 回溯过程从最大值开始,向上、左或左上对角线知道碰到一个为0的单元格为止。
    • Smith-Waterman算法的快速、启发式版本:FASTA和BLAST
      • Smith-Waterman算法速度较慢,需要考虑与整个数据库比对
      • 将参数N作为处理的数据量,用Needleman-Wunsch与Smith-Waterman的算法比对两条序列所需计算机时间和空间与序列长度乘积(m*n)成正比,搜索大小为N的数据库时,为m*N
        • 大O表示法
          • Needleman-Wunsch:m*n
          • Smith-Waterman:m²n
      • FASTA和BLAST:启发式算法,在执行比对前先扫描数据库以发现可能的匹配序列来缩减搜索范围,牺牲灵敏度以换取更大的运行速度
      • FASTA算法
        • 建立一个包括数据库中短氨基酸或核苷酸片段的查询表。长度由参数ktup决定,在搜索时设置,对于给定的ktup值,产生10个最高分值的片段
        • 利用打分矩阵对这是个匹配区域重新打分,允许保守性替换
        • 如果高分区域属于同一个蛋白质,则将它们连接在一起
        • 对最高片段执行全局或者局部比对,可以优化查询序列与数据库的最优匹配的比对。
      • 局部比对搜索工具(BLAST)
        • BLAST是一个局部比对搜索工具,用于将一条查询序列与一个数据库进行比对。
        • BLAST除了展示双序列结果外,还会输出点阵图,这是图形化比对两个序列的方法。
        • 两条序列分别作为x,y轴,一致性的位置通过点来打分,一致性区域会形成对角线。
          • 2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第6张图片
  • 双序列比对的统计显著性
    • 2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第7张图片
    • 设立0假设和备择假设
    • 选择一个显著值a,作为定义统计显著的阈值
    • 三种方法(简述)
      • 将比对分数与目的序列非同源的序列的分数进行比较
      • 将序列与随机生成的序列集合进行比对
      • 随机获取两条蛋白序列中的一条序列,与另一条比对,重复100,计算Z值
    • 多重序列比对问题
      • 需要调整显著性水平a,提高0假设被拒绝的可能性
        • Bonferroni矫正:将a处以尝试次数(10^6)来设置新的阈值
  • 百分比一致性和相对熵
    • 考虑两条序列的百分比一致性可以判断他们是否在进化上显著相关
    • 由于在“模糊区域”的作用有限,这种方法推测同源性不够严格:一段区域中的高度一致性不代表进化上的显著性
    • 相对熵H:对应与一个特定的评分矩阵相关的目标和背景分布的信息量
    • 相对熵(H)与PAM距离具有函数关系
      • 2020.12.13【读书笔记】丨生物信息学与功能基因组学(第三章 双序列比对 全局与局部算法)_第8张图片
  • 展望
    • 双序列比对使得任意两序列之间的相关性能够被测定,而相关性程度的测定可以帮助提出他们是否具有同源性的假说。
    • 双序列算法开发于20世纪70年代;局部序列比对在20世纪80年代被提出
    • 目前双序列比对算法的木敢赌和特异度还有待继续评估。
  •  

你可能感兴趣的:(读书笔记,生物信息学与功能基因组学)