3-【blast】的安装和使用(2021.5.1)

安装时间:2021.2.3

1. 简介

    BLAST(Basic Local Alignment Search Tool),是一套在DNA数据库或蛋白质数据库中进行局部相似性比对分析的工具,其中包括blastn(核酸比核酸),blastp(蛋白比蛋白)和blastx(核酸比蛋白)、tblastn(蛋白比核酸)等工具。




2. 安装

2.1 利用conda安装

conda install blast

2.2官网下载安装包,解压缩后安装

  1. 下载:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
  2. 解压缩
  3. 将目录添加到系统环境变量



3. 使用(以blastn为例)

3.1 两条序列进行比对

blastn -query  -subject  -out <输出结果> -outfmt 0 -dust no

参数说明:
1. -query:需要查询的序列
2. -subject:靶标序列
3. -outfmt:输出格式,有多种格式可选,常用0和6。(默认:0)
4. -dust:输出结果是否忽略简单部分。在tblastn等程序中该参数为-seg

3.2 一对多,多对多序列比对

第一步:建立数据库索引

makeblastdb -in  -dbtype prot -out 

参数说明:
1. -in:需要格式化的序列文件,为fasta格式包含所有序列的单独文件
2. -dbtype:数据库的类型,nucl或者prot
3. -out:输出数据库的名称,后续比对会用到

第二步:比对

blastn -query  -out  -db  -outfmt 6 -evalue 1e-5 -num_threads 10

参数说明:
1. -query:输入文件路径及文件名
2. -out :输出文件及文件名
3. -db:第一步中格式化后的路径及数据库名
4. -outfmt:输出文件格式,通常用数字6,输出的文件是m8格式文件
5. -evalue:设置输出结果的阈值,一般为1e-5
6. -num_threads:使用线程数(默认:1)

m8格式文件说明:

  • Query_id:查询序列ID标识
  • Subject_id:比对上的目标序列ID标识
  • %_identity:序列比对的一致性百分比
  • alignment_length:符合比对的比对区域的长度
  • mismatches:比对区域的错配数
  • gap_openings:比对区域的gap数目
  • q.start:比对区域在查询序列(Query id)上的起始位点
  • q.end:比对区域在查询序列(Query id)上的终止位点
  • s.start:比对区域在目标序列(Subject id)上的起始位点
  • s.end:比对区域在目标序列(Subject id)上的终止位点
  • e-value:比对结果的期望值,越小越好
  • bit_score:比对结果的bit score值

你可能感兴趣的:(3-【blast】的安装和使用(2021.5.1))