1.对于windows 2000/xp 用户,下载blast-2.2.18-ia32-win32.exe安装文件
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/blast-2.2.18-ia32-win32.exe
2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。
表:bin目录中的程序
程序 |
说明 |
bl2seq.exe | 进行两条序列比对 |
blastall.exe | 做普通的blast比对 |
blastclust.exe | |
blastpgp.exe | |
copymat.exe | |
fastacmd.exe | 通过gi号,接收号等,在数据库中检索序列 |
formatdb.exe | 格式化数据库 |
formatrpsdb.exe | |
impala.exe | |
makemat.exe | |
megablast.exe | megablast程序 |
rpsblast.exe | |
seedtop.exe |
3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:
[NCBI] Data="C:\blast\data\"
将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。
4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:
1)右击我的电脑选择属性,选择高级,点击环境变量,
设置环境变量
2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:\blast\bin”,点击确定
将安装路径添加到path
5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示blastall的所有参数说明。
安装测试
注意:
如果报错:“‘blastall’不是内部或外部命令,也不是可运行的程序或批处理文件。”,请检查环境变量设置,或者切换到安装目录的bin目录下,再执行。
如果报错:“FATAL ERROR: FindPath failed.”,请检查ncbi.ini文件。
要使用程序对blast结果进行解析、分析,就必须对BLAST的结果形式有深入的了解,本篇文章将向你详细说明Blast结果的数据结构,供参考。这里的指的是blast默认的结果,也是我们应用最多的结果。
3.14.1. 结果文件的结构
一个BLAST的结果文件,大致结构如下:
每个blast结果文件都以固定的header开头,里面包含了BLAST程序名称,版本与Reference信息。接下来包含一个或多个Query,每个query包含以下内容:
Query information
Sequences producing significant alignments
Subjects
Query information是对一个query 序列的基本信息描述,Sequences producing significant alignments是对所有subjects的简要list。每个subjects是query序列在数据库中比对上的一条序列。
3.14.2. header
每个blast结果文件都以固定的header开头,里面包含了BLAST程序名称,版本与Reference信息。
blast结果解读-header
3.14.3. Query
每个blast结果文件包含一个或多个Query,每个query包含以下内容:
Query information
Sequences producing significant alignments
Subjects
blast结果解读-Query
3.14.4. Query information
Query information是对一个query 序列的基本信息描述。该部分包括
? Name:Fasta序列对于序列描述的部分(见本文档section1.2部分说明)
? Accession:接收号,或者location
? Description:序列描述
? Length:序列的长度
? Database:用户使用的数据库信息
3.14.5. Sequences producing significant alignments
该处的信息是所有subjects的简要list。
blast结果解读-subjects list
3.14.6. Subjects
每个subjects是query序列在数据库中比对上的一条序列。每个subject部分包括
? Subject序列信息
? 一个或多个alignment
3.14.7. Subject序列信息
Subject序列信息包括该序列的:
? Name:Fasta序列对于序列描述的部分
? Accession:接收号,或者location
? Description:序列描述
? Length:序列的长度
BLAST-subjects
3.14.8. Alignment
一个query序列和一个subject序列的比对结果,可能是一个或多个alignment,每个alignment包括如下信息,其中strand,frame和positives三项,随着所用blast程序的不同而有变动:
? Score:281
? Expect:2e-54
? Percent_identity
? Identities
? bits :110
? Length
? Mismatches= Length – Identities
? Gaps:为空时,Gaps=0
? Strand (blastn)
? Frame (blastx,tblastn,tblastx)
? Positives (blastp, blastx,tblastn,tblastx)
? Query_start
? Query_end
? Subject _start
? Subject _end
BLAST-subjects
3.14.9. 数据结构总结
比对结果分三个层次
Query下面有一个或者多个Subject,一个Subject下面有多个Alignments。
Query 从“Query=” 开始到下一个 “Query=”或者文件结束
Subject 从“>”开始到下一个“>”或者“Query=”或者文件结束
Alignment 从“Score =”开始到下一个“Score =”或“>”或者“Query=”或者文件结束。
BLAST-数据结构