NCBI数据下载工具:aspera的安装与使用

前言

    生物信息分析总是避不开从NCBI上下载数据,但是很多时候通过浏览器登录NCBI都费劲,更别说下载大量的数据了,所以很必要了解一下NCBI数据下载工具aspera,该软件是由IBM开发,能够最大程度利用宽带速度,小编下载NR和NT数据库的时候速度能飚到400Mb/s,下载基因组的时候能飚到20Mb/s。

下载安装

    下载链接:Aspera - Connect | IBM然后选择 请参阅所有安装程序选择自己需要的版本,小编这里选择aspera-connect-3.7.4.147727-linux版本为例。

下载:wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

解压:tar -xzvf aspera-connect-3.7.4.147727-linux-64.tar.gz

安装:sh aspera-connect-3.7.4.147727-linux-64.sh  #此时安装已经完成,去到用户的home目录里能看到一个.aspera目录

秘钥复制: cd;cp ./.aspera/connect/etc/asperaweb_id_dsa.putty .;cp ./.aspera/connect/etc/asperaweb_id_dsa.openssh ./# 切换到home路径,将两个重要的配置文件复制到home路径

添加环境变量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc ;source ~/.bashrc

已可以使用该下载工具下载数据

NCBI数据下载示例

    小编想从NCBI上下载拟南芥基因组和NR数据库,于是从NCBI上扒拉得到下载链接https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz  和https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz 

    只要运行一下下边命令即可下载得到基因组和NR数据库:

基因组:ascp -i ~/asperaweb_id_dsa.openssh  -QTr -l200m  [email protected]:genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz ./

NR数据库:ascp -i ~/asperaweb_id_dsa.openssh  -QTr -l500m  [email protected]:blast/db/FASTA/nr.gz ./


    其他的下载地址可以参考该下载命令,只要稍加修改即可,参数-i表示限制的最大下载速度,一般200m到500m,其他参数小编了解的不是很清楚,感兴趣可以去官网上翻阅。

aspera的其他应用

    对于生信分析来说,aspera还可以下载EBI数据,还有Windows版本的该软件,大家可以去官网研究,最后小编在这里提醒一下,因为该软件能最大利用宽带,所以下载时最好进行限速,以免影响别人的工作。

你可能感兴趣的:(NCBI数据下载工具:aspera的安装与使用)