2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)

  • 学习目标
    • 学会在NCBI网站上进行BLAST搜索
    • 理解BLAST各个参数的用途
    • 理解BLAST搜索的三个步骤(整理,扫描/延伸,回溯);
    • 理解BLAST E值和分数的数学关系;
    • 阐明BLAST搜索的策略
  • 引言
    • 基本局部比对搜索工具(BLAST)是NCBI的一个主要工具,可用来将一个蛋白质或者DNA序列与各种数据库中其他序列进行比对。
    • 应用:
      • 通过蛋白质/核酸序列,寻找一只的直系同源和旁系同源序列
      • 通过特定物种,确定其存在的蛋白质和基因
      • 确定一个DNA或蛋白质序列的身份
      • 发现新基因
      • 对于特定蛋白或基因,确定有哪些变种已经被描述
      • 考察可能发生选择性剪接的表达序列标签(ESTs)
      • 探索对一个蛋白质结构/功能其重要作用的氨基酸残基
    • 网页版搜索步骤:
      • 1.选择一个感兴趣的序列,粘贴,输入或上传至BLAST网站的输入栏中
      • 2.选择一个BLAST程序(BLASTP、BLASTN等)
      • 3.选择一个搜索数据库(nr/nt)
      • 4.选择对搜索和输出结果进行调整的参数,包括替换矩阵、筛选低复杂度的序列以及将搜索范围限制在某些特定的物种中等。
      • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第1张图片
  • BLAST搜索步骤BLAST算法使用局部比对搜索的策略
    • 1.选定感兴趣的序列
      • 两种输入方式:
        • 粘贴DNA/蛋白质序列
        • 输入索引编码。
    • 2.选择BLAST程序
      • 五个主要程序
        • BLASTP:核酸(na)序列与一个蛋白质(aa)数据库比对
        • BLASTN:na序列与na数据库比对
        • BLASTX:na序列翻译成6种开放阅读框(ORF)蛋白序列,与aa数据库比对(6:1)
          • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第2张图片
        • TBLASTN:aa序列与翻译成6种开放阅读框(ORF)的na数据库比对(逆向BLASTX,1:6)
        • TBLASTX:na序列翻译成6种开放阅读框(ORF)序列与翻译成6种开放阅读框(ORF)的na数据库比对(6:6)
        • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第3张图片
    • 3.选择数据库
      • 默认nr数据库
      • 其他蛋白质序列数据库
        • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第4张图片
      • 其他DNA序列数据库
        • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第5张图片
    • 4.选择参数
      • 搜索参数:
        • Query(查询序列):序列、索引编号、GI编号
        • Limit by Entrez Query(限定搜索):可以用Entrez搜索所用的名词来进行限定(作者、物种等)
        • Max target sequence(显示条目):默认100,可以修改
        • Short queries(短查询序列):修改此数值会影响期望值和字段长度
        • Expected threshold(期望值阈值):
          • 期望值E是在一个数据库搜索中大于等于比对分数S的偶然发生的不同比对的个数。默认值为10
          • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第6张图片
        • Word size(单词长度):默认为3,对BLASTP而言,大的单词长度会得到更精确的搜索结果。
        • Max matches in a query range(查询区域内的最大匹配数):有时在感兴趣区域内的匹配会被其他区域出现的频繁匹配所掩盖,这个选项允许抛弃数据库中的冗余匹配。
        • Matrix(矩阵):对于BLASTP,共有8个氨基酸替换矩阵可选择,默认BLOSUM62。
          • 对于短序列查询,建议使用PAM30矩阵(https://share.mubu.com/doc/3a3Wxo_Lzru)。
        • Gap costs(空位成本):空位分数包括打开罚分和延伸罚分,空位成本被设定为G(10,15),L(1,2),又叫仿射空位罚分。
        • Compositional adjustment(组成校正):一个标准矩阵不适用于两个存在不标准组成的蛋白质之间的比对,其目标频率需要在新的背景频率下进行校正。
        • Filter(筛选):可以遮盖查询序列中的地复杂图部分。
        • Masking(遮盖):对超过预支与数据库匹配的单词进行着改,避免匹配到低复杂度序列或重复片段。
        • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第7张图片
      • 格式参数*(已更新,略过):
        • 最上方是种类、序列和数据库介绍以及按物种排列的链接
        • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第8张图片2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第9张图片
    • 5.比对结果展示
      • 4.8为图示总结,包括保守区域以及基于颜色编码的总结、沿x轴的表示查询序列的长度。下方每一条表示从数据库比对出来蛋白质序列。
        • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第10张图片
      • 4.9描述了比对结果根据期望值E升序进行排序,则最显著的结果在最上方。每一行对应物种描述、比对分数、序列覆盖度、期望值E、一致性百分数和索引编号。
        • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第11张图片
        • 勾选多个序列可进行多重比对(4.10)
          • 2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 上)_第12张图片
    • 客户端BLAST*(不常用,略)
  •  

你可能感兴趣的:(生物信息学与功能基因组学,读书笔记)