在windows环境下安装运行NCBI-blast程序

NCBI BLAST 程序作为广泛使用的序列比对工具深受大家喜爱,对于一般的生物信息处理过程来讲,网页版的工具已经足够使用,但是若想自己构建自定义的搜索数据库以及对大量序列进行检索,则需要在本地运行。

Linux系统是生物信息处理的通用系统,但不是每个人都会使用Linux系统作为日常的操作系统,为了方便使用,所以本文记录了在win10系统中安装和使用blast程序的过程。

Blastx

程序的下载和安装

可以在NCBI的官方FTP站点下载所需的文件,win10用户可以下载ncbi-blast-2.10.0+-win64.exe

安装过程和一般的软件没有两样,双击安装就可以了,也可以自定义安装路径


安装

构建本地化数据库

因为是命令行工具,所以使用软件需要用到windows上的“终端”,首先,点击powershell,右键选择更多-以管理员身份运行,此举是为了避免不必要的权限问题。

因为下载的是安装版软件,因此,在安装后会自动添加环境变量到系统中,因此在终端输入

makeblastdb -h

会出现程序的用法页面

但是为了通用性,我们依旧进入安装目录来运行对应的程序

左下角搜索powershell,右键选择管理员启动。

输入命令cd C://Users/wanglab1/Desktop,按回车键,目的是找到程序安装的位置。

输入命令cd .\软件\ncbi-blast-2.9.0+-win64\bin\,按回车键,目的是找到程序位置。

构建数据库

输入命令

.\makeblastdb.exe -in C:\Users\wanglab1\Desktop\pepunit.lib 
-dbtype prot -out lailai

按回车,目的是构建数据库。

  • makeblastdb.exe表示运行程序;
  • -in表示输入;
  • pepunit.lib表示下载好的比对数据库,
  • C:\Users\wanglab1\Desktop\pepunit.lib 表示数据库的位置;
  • -dbtype prot表示数据库类型是protein,
  • -out表示输出;
  • lailai表示输出的构建完成的数据库名称。

构建本地数据库,所需要的的文件可以是fasta格式的序列,例如:

$ cat test.fsa 
>seq1
MSFSTKPLDMATWPDFAALVERHNGVWGGCWCMAFHAKGSGAVGNREAKEARVREGSTHAALVFDGSACVGWCQFGPTGE
LPRIKHLRAYEDGQAVLPDWRITCFFSDKAFRGKGVAAAALAGALAEIGRLGGGTVESYPEDAQGRTVAGAFLHNGTLAM
>seq2
MKAIDLKAEEKKRLIEGIQDFFYEERNEEIGIIAAEKALDFFLSGVGKLIYNKALDESKIWFSRRLEDISLDYELLYK
>seq3 
MTLAAAAQSATWTFIDGDWYEGNVAILGPRSHAMWLGTSVFDGARWFEGVAPDLELHAARVNASAIALGLAPNMTPEQIV
GLTWDGLKKFDGKTAVYIRPMYWAEHGGYMGVPADPASTRFCLCLYESPMISPTGFSVTVSPFRRPTIETMPTNAKAGCL
YPNNGRAILEAKARGFDNALVLDMLGNVAETGSSNIFLVKDGHVLTPAPNGTFLSGITRSRTMTLLGDYGFRTTEKTLSV
RDFLEADEIFSTGNHSKVVPITRIEGRDLQPGPVAKKARELYWDWAHSASVG
>seq4
MRSFFHHVAAADPASFGVAQRVLTIPIKRAHIEVTHHLTKAEVDALIAAPNPRTSRGRRDRTFLLFLARTGARVSEATGV
NANDLQLERSHPQVLLRGKGRRDRVIPIPQDLARALTALLAEHGIANHEPRPIFIGARQERLTRFGATHIVRRAAAQAVT
IKPALAHKPISPHIFRHSLAMKLLQSGVDLLTIQAWLGHAQVATTHRYAAADVEMMRKGLEKAGVSGDLGLRFRPNDAVL
QLLTSI
>seq5
MTISRVCGSRTEAMLTNGQEIAMTSILKSTGAVALLLLYTLTANATSLMISPSSIERVAPDRAAVFHLRNQMDRPISIKV
RVFRWSQKGGVEKLEPTGDVVASPISAQLSPNGNRAVRVVRVSKEPLRSEEGYRVVIDEADPTRNTPEAESLSARHVLPV
LFRPPDVLGPEIELSLTRSDGWLMLVVENKGASRLRRSDVTLAQGSAGIARREGFVGYVLPGLTRHWRVGREDSYSGGIV
TVSANSSGGAIGEQLVVSGR
>seq6
TTLLLQVPIGWGVLHQGGALVVLGFAIAHWRGFVGTYTRDTAIEMRD

输入命令 dir,按回车,可以查看到构建好的数据库。

注意,如果你在构建数据库过程中遇到内存不足的报错,请毫不犹豫的去下载2.9版本的blast运行,因为从2.10.0发行版开始,makeblastdb默认情况下会生成使用LMDB的版本5数据库。LMDB需要虚拟内存(至少600 GB,但建议800 GB)。

使用构建好的数据库搜索

搜索

输入命令

.\blastp.exe -query C:\Users\wanglab1\Desktop\test1.fasta.txt 
-db lailai -out biduijiguo.txt
  • blastp.exe表示运行程序;
  • -query待比对的输入序列,必须是fasta格式文件,这里文件命名是test1
  • C:\Users\wanglab1\Desktop\test1.fasta.txt表示文件test1的位置;
  • -db表示数据库;
  • -out表示输出;
  • biduijiguo.txt表示比对结果输出到biduijiguo文件中。

查看结果

比对结果保存在,电脑上的blast文件夹中,子文件夹bin中,名称为biduijieguo的txt记事本。

整个操作过程如下:


你可能感兴趣的:(在windows环境下安装运行NCBI-blast程序)