本地化BLAST+详细使用方法

序列相似性搜索是重要的生物信息学研究之一,常常为新测序基因组或序列片段的功能提供参考,而BLAST是这一系列工具中最流行的相似性搜索工具。1989年,美国国家生物技术信息中心(NCBI)首次推出BLAST。自第一版以来,NCBI一直在维护和更新BLAST版本。 2009年,NCBI推出了新版本的独立式BLAST应用程序(BLAST +),现在的版本已更新到2.7.1。BLAST+与BLAST相比,有很多改进和提高,可以加快搜索速度,并在输出格式和搜索输入方面提供更大的灵活性,主要有以下几点:

  1. 分割较长的查询序列以减少内存使用,并且充分利用现代CPU的运算能力;
  2. 使用数据库索引来显著加快搜索的速度;
  3. 具有保存稍后可用于开始新一轮搜索的“搜索策略”的能力;
  4. 在表格式结果的格式化方面具有更大的灵活性。

NCBI强烈推荐放弃BLAST,使用BLAST+, 这里说的BLAST和BLAST+,都是本地的,与那个批量BLAST小程序不是一回事。BLAST+下载地址:NCBI BLAST+ 。

BLAST+的一般用法如下:

格式化数据库

makeblastdb -in db.fasta -dbtype prot -out dbname

参数说明:

-in:待格式化的序列文件

-dbtype:数据库类型,prot或nucl

-out:数据库名

蛋白序列比对蛋白数据库(blastp)

blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

参数说明:

-query: 输入文件路径及文件名

-out:输出文件路径及文件名

-db:格式化了的数据库路径及数据库名

-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应之前BLAST的m8格式

-evalue:设置输出结果的e-value值

-num_threads:线程数

核酸序列比对核酸数据库(blastn)以及核酸序列比对蛋白数据库(blastx)

与上面的blastp用法类似:

blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

以上的参数说明只是一些常用的参数,完整的参数说明可以用-help查询,关于BLAST的详细介绍可以参考BLAST的官方文档。

参考:

  • 有个博客:BLAST+使用方法
  • BLAST® Command Line Applications User Manual [Internet].

你可能感兴趣的:(本地化BLAST+详细使用方法)