1.2 序列分析工具(BLAST&BLAT)

基本概念

相似性(similarity)

  • 一种很直接的数量关系,比如部分相同或相似的百分比或其他一些合适的度量
  • 如:A序列和B序列的相似性是80%

同源性(homology)

  • 从一些数据中推断出的两个基因或者蛋白序列具有共同祖先的结论,属于质的判断
  • 可以说A序列和B序列是同源序列,但不能说同源性80%

常用工具

  • BLAST
  • BLAT

BLAST(Basic Local Alignment Search Tool,局部相似性基本查询工具)

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

https://www.biomart.cn/experiment/599/608/19912_0.htm

资源

  • 网络版:https://blast.ncbi.nlm.nih.gov/Blast.cgi
  • 单机版:https://ftp.ncbi.nlm.nih.gov/blast/

网络版BLAST

  • Nucleotide BLAST:核酸与核酸比对
  • Protein BLAST:蛋白质与蛋白质比对
  • blastx:核酸与蛋白质比对
  • tblastn:蛋白质与核酸比对
  • BLAST Genomes:把序列对应到基因组上去
网络版BLAST
Nucleotide BLAST(blastn)
  • Enter Query Sequence:提交序列的窗口
  • Choose Search Set:BLAST参数选择
    • Database:通常选择nr数据库(最全面)
BLAST查询界面

完成设置之后点击BLAST即可进行BLAST分析

Protein BLAST(blastp)
  • Enter Query Sequence:提交序列的窗口
  • Choose Search Set:BLAST参数选择
    • Database:通常选择nr数据库(最全面)
  • Program Selection:通常选择blastp

BLAT(The BLAST-Like Alignment Tool)

  • 速度快(直接把数据库索引读入内存,无需访问硬盘)
  • 对于比较小的序列和大基因组的比对,BLAT是首选

资源

  • 网络版:http://genome.ucsc.edu/cgi-bin/hgBlat

操作方法

  • Genome:选择物种,比如人
  • Assembly:版本号
  • Query type:用于查询的序列类型(DNA/蛋白质)
  • Sort output:结果排序方式
  • Output type:输出格式
    • hyperlink:指向结果的超链接,便于可视化
    • psl:制表符分隔的表格,便于数据处理

查询结果(hyperlink)

ACTIONS QUERY SCORE START END QSIZE IDENTITY CHROM STRAND START END SPAN
browser details CRP_HUMAN 671 1 224 224 100.0% chr1 +- 159713528 159714485 958
browser details CRP_HUMAN 105 119 183 224 77.0% chr1 +- 159705131 159705325 195
browser details CRP_HUMAN 54 117 188 224 62.5% chr1 ++ 159276797 159277012 216
详情

点击Browser可以进入详情界面

BLAT分析结果

查询结果(psl)

match mismatch rep. match N's Q gap count Q gap bases T gap count T gap bases strand Q name Q size Q start Q end T name T size T start T end block count blockSizes qStarts tStarts
224 0 0 0 0 0 1 286 +- CRP_HUMAN 224 0 224 chr1 248956422 159713527 159714485 2 19,205, 0,19, 89241937,89242280,
50 15 0 0 0 0 0 0 +- CRP_HUMAN 224 118 183 chr1 248956422 159705130 159705325 1 65, 118, 89251097,
45 27 0 0 0 0 0 0 ++ CRP_HUMAN 224 116 188 chr1 248956422 159276796 159277012 1 72, 116, 159276796,

你可能感兴趣的:(1.2 序列分析工具(BLAST&BLAT))