2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)

  • 5.5 用类似于BLAST的比对工具快速搜索基因组DNA
    • 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高
      • 能在基因组DNA中找到外显子
      • 比对时考虑基因组DNA包含的测序错误
      • 有相应的算法解决相关物种的基因组在比对中出现删除、重复、倒置或移位的问题
      • 有相应的算法解决DNA序列之间的小差异,如SNP位点
    • 用标准集去评估基因组比对效果
      • 时使用序列进化随机模型(ROSE)软件包船舰一个模拟序列集进行测试,可以得到全局比对工具LAGAN灵敏度最高,局部比对工具(如BLASTZ)在编译区段的比对更加精确
    • PatternHunter:非连续的种子提高灵敏度
      • PatternHunter在匹配位点中间加入错配位点,提升了速度与灵敏度(描述了两种模型)
      • 以匹配为1,错配为0为例,模型格式如下:
        • BLASTN:11111111111
        • PatternHunter:110100110010101111(另一种11101001010011011)
        • 原因:在相邻种子匹配之间会共享的剪辑很少,使得匹配比使用连续种子模型更加独立
      • BLASTZ和MegaBLAST等同源蛋白质搜索算法也用到了该策略
        • 图示

          2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)_第1张图片

    • BLASTZ
      • 专门比对人类和小鼠基因组DNA序列。
      • 功能:
        • 谱系特异性的散在重复序列会被从两个序列中移除
        • 用12个单词长度来匹配并不允许空位将其延申,当得分超过某一阈值,延申会允许出现空位,即1110100110010101111
        • 对于邻近成功比对的区段在重复第二步时使用的是更低的(更灵敏)单词长度,比如7。
          • 可以使用UCSC可视化BLASTZ比对的基因组序列
            • 图示

              2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)_第2张图片

    • Enredo和Pecan(略)
      • Ensemble用于多序列比对,其比对结果比基于其他准则的其他软件更加精确
    • MegaBLAST和不连续MegaBLAST
      • MegaBLAST:NCBI被优化用于快速比对长DNA查询序列的工具,默认单词长度为28,可调至256,提升运行速度。
        • 单词长度小,灵敏度高,运行速度低。
        • 可定义输出的相似度百分比阈值
        • 可定义相应的匹配和错配得分
      • 不连续MegaBLAST为了比对更多远缘相关基因组序列的工具。
        • 图示

          2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)_第3张图片

    • 类BLAST比对工具(BLAT)
      • 极快速的基因组DNA搜索工具
      • BLAT将整个基因组DNA数据库分解成单词的索引,这些单词包含基因组中所有非重叠11-mers。
      • BLAT所用的数据库索引策略也被SSAH2和后续的MegaBLAST采用
      • 其他性质:
        • BLAST会在出现两个匹配时激发延伸,BLAT需要多个匹配;
        • BLAT主要为了找到与查询序列相似达95%以上的匹配
        • BLAT会搜索内含子与外显子的边界,实质上是建立了一个基因结构的模型。
          • 查询案例,图示

            2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)_第4张图片

    • LAGAN
      • 双序列比对
        • 图示

          2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)_第5张图片

      • 分三个步骤进行全局双序列比对
        • 1. 在两条序列中首先生成局部比对从而识别一组锚,允许多个短的不精确单词的匹配而不是长的精确单词匹配;
        • 2. 生成粗略的全局图谱,包含根据得分排序的最大锚的集合;
        • 3. 计算最终的全局比对,被限制在粗略图谱定义的优先区域运行。
    • SSAHA2
      • SSAHA2将DNA数据库转换为固定单词长度的哈希表,双序列比对则可以在哈希表中快速寻找匹配。
  •  欢迎加群交流,或者加VX:bbplayer2021,邀请进群
  • 2021.11.22【读书笔记】丨生物信息学与功能基因组学(第五章第五节 用类似于BLAST的比对工具快速搜索基因组DNA)_第6张图片

你可能感兴趣的:(生物信息学与功能基因组学,读书笔记,生物信息,linux,python,正则表达式)