2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)

  • 5.5 用类似于BLAST的比对工具快速搜索基因组DNA
    • 需求:随着基因组DNA数据库数量增长,对比对工具要求越来越高
      • 能在基因组DNA中找到外显子
      • 比对时考虑基因组DNA包含的测序错误
      • 有相应的算法解决相关物种的基因组在比对中出现删除、重复、倒置或移位的问题
      • 有相应的算法解决DNA序列之间的小差异,如SNP位点
    • 用标准集去评估基因组比对效果
      • 时使用序列进化随机模型(ROSE)软件包船舰一个模拟序列集进行测试,可以得到全局比对工具LAGAN灵敏度最高,局部比对工具(如BLASTZ)在编译区段的比对更加精确
    • PatternHunter:非连续的种子提高灵敏度
      • PatternHunter在匹配位点中间加入错配位点,提升了速度与灵敏度(描述了两种模型)
      • 以匹配为1,错配为0为例,模型格式如下:
        • BLASTN:11111111111
        • PatternHunter:110100110010101111(另一种11101001010011011)
        • 原因:在相邻种子匹配之间会共享的剪辑很少,使得匹配比使用连续种子模型更加独立
      • BLASTZ和MegaBLAST等同源蛋白质搜索算法也用到了该策略
        • 图示

          2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第1张图片

    • BLASTZ
      • 专门比对人类和小鼠基因组DNA序列。
      • 功能:
        • 谱系特异性的散在重复序列会被从两个序列中移除
        • 用12个单词长度来匹配并不允许空位将其延申,当得分超过某一阈值,延申会允许出现空位,即1110100110010101111
        • 对于邻近成功比对的区段在重复第二步时使用的是更低的(更灵敏)单词长度,比如7。
          • 可以使用UCSC可视化BLASTZ比对的基因组序列
            • 图示

              2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第2张图片

    • Enredo和Pecan(略)
      • Ensemble用于多序列比对,其比对结果比基于其他准则的其他软件更加精确
    • MegaBLAST和不连续MegaBLAST
      • MegaBLAST:NCBI被优化用于快速比对长DNA查询序列的工具,默认单词长度为28,可调至256,提升运行速度。
        • 单词长度小,灵敏度高,运行速度低。
        • 可定义输出的相似度百分比阈值
        • 可定义相应的匹配和错配得分
      • 不连续MegaBLAST为了比对更多远缘相关基因组序列的工具。
        • 图示

          2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第3张图片

    • 类BLAST比对工具(BLAT)
      • 极快速的基因组DNA搜索工具
      • BLAT将整个基因组DNA数据库分解成单词的索引,这些单词包含基因组中所有非重叠11-mers。
      • BLAT所用的数据库索引策略也被SSAH2和后续的MegaBLAST采用
      • 其他性质:
        • BLAST会在出现两个匹配时激发延伸,BLAT需要多个匹配;
        • BLAT主要为了找到与查询序列相似达95%以上的匹配
        • BLAT会搜索内含子与外显子的边界,实质上是建立了一个基因结构的模型。
          • 查询案例,图示

            2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第4张图片

    • LAGAN
      • 双序列比对
        • 图示

          2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第5张图片

      • 分三个步骤进行全局双序列比对
        • 1. 在两条序列中首先生成局部比对从而识别一组锚,允许多个短的不精确单词的匹配而不是长的精确单词匹配;
        • 2. 生成粗略的全局图谱,包含根据得分排序的最大锚的集合;
        • 3. 计算最终的全局比对,被限制在粗略图谱定义的优先区域运行。
    • SSAHA2
      • SSAHA2将DNA数据库转换为固定单词长度的哈希表,双序列比对则可以在哈希表中快速寻找匹配。
  • 5.6 将二代测序读段与参考基因组比对
    • 1977年:sanger测序 2005年:NGS测序
    • 比对考虑因素:
      • 匹配和错配
      • 运行速度
        • 引入索引:哈希表和后缀树
        • 2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第6张图片

    • 基于哈希表的比对
      • 利用“种子延伸”策略
      • 1.输入两种数据:
        • 参考基因组序列
        • 大量的短序列片段
      • 2. 对片段设立索引并简历多个哈希表
      • 3. 然后搜索哈希表来识别数据库中的匹配区段。
    • 基于Burrows-Wheeler转换的比对(后缀树)
      • 使用后缀树和后缀数组是提高比对速度的一种方法,BWA和Bowtie2常用,均考虑片段的长度,测序错误率,空位罚分并综合考虑读段的局部和全局比对。
      • BWT对参考基因组进行变换和压缩(无损压缩),即可以由压缩后的数据还原出完整的原始序列。
        • 1. 给定一个长度为N的字符串,生成N*N的矩阵
        • 2. 按照字典排序法排序,生成矩阵M,每一行对应字符串的循环移位,第一列为F最后一列为L
        • 3. 压缩后只用字符串的F和L的信息或者索引,就能很快重新还原矩阵M
        • 2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第7张图片

  • 5.7 展望
    • 随着BLAST搜索已经成为一个研究蛋白质和基因的基础工具,人们开发了许多特殊的应用,包括不同的算法和特殊数据库。
    • BLAST并不能搜索大量的基因组DNA,而其他的方法可以通过使用更长的单词长度、空位种子以及数据库和查询序列的索引实现这一目的。
    • 短序列比对工具是为了将数以百万计的短序列比对到参考基因组上而专门设计的,典型应用包括寻找SNP位点和SV位点。
  • 5.8常见问题
    • 对于任何生物信息学问题,必须要明确对数据库进行查询的目标,即为了实现什么目的
    • 考虑BLAST中的假阳性问题,在结果中移除,并重新设置合适的期望阈值
    • 尝试针对特定目标使用合适的工具和数据库
  • 希望这篇文章能够帮到大家,也欢迎大家加入交流群,或者加VX:bbplayer2021 分享生信的学习心得.

  • 2021.12.19【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 下)_第8张图片

 

你可能感兴趣的:(生物信息学与功能基因组学,读书笔记,生物信息,数据分析,算法)