使用Aspera下载NCBI和ENA数据库中的数据

使用Aspera下载NCBI和ENA数据库中的数据

NCBI数据库储存的常用数据有:Nt库,Nr库,Swissprot库,以及物种的基因组数据(Genome数据库)等。
ENA数据库储存的常用数据有:SRR数据库数据,pfam等。

安装Aspera软件

Aspera软件的安装和详细使用教程,查看我的另一篇博文——SRA数据下载(通过EBI-ENA数据库,使用ASpera)
这里简述一下
官网:https://www.ibm.com/products/aspera/downloads,下载安装包 ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz

#上传安装包
cd /home/zhaohuiyao/Biosoft
tar -zxvf ./ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
./ibm-aspera-connect-3.11.1.58-linux-g2.12-64.sh
#注意该软件root用户不能安装,需要使用普通用户
#安装成功
#可执行文件位置:/home/zhaohuiyao/.aspera/connect/bin/ascp 

Aspera命令介绍

/home/zhaohuiyao/.aspera/connect/bin/ascp -v -QT -l 400m 
-k1 -i /home/zhaohuiyao/.aspera/connect/etc/asperaweb_id_dsa.openssh
[email protected]:/blast/db/FASTA/nr.gz 
/home/zhaohuiyao/Database/ 
#-k1:断点续传,平均速度150Mb/s

一些小Tips

①因为本地服务器的不同,Aspera软件的下载速率也不同。可能是150Mb/s,也有10Mb/s

②NCBI数据库
NCBI,全称National Center for Biotechnology Information。官网:https://www.ncbi.nlm.nih.gov/
下载数据地址:https://ftp.ncbi.nlm.nih.gov/
使用[email protected]:/blast/db/FASTA/nr.gz 这样的格式

③ENA数据库
ENA,全称European Nucleotide Archive。官网:https://www.ebi.ac.uk/ena/browser/home
下载数据地址:http://ftp.ebi.ac.uk/或者http://ftp.sra.ebi.ac.uk/
官方下载方法介绍地址:https://ena-docs.readthedocs.io/en/latest/retrieval/file-download.html#
有9种。分别是:①Using ENA Browser②Using ENA File Downloader Command Line Tool③Using ENA FTP Downloader GUI tool④Using Globus⑤Using enaBrowserTools⑥Using wget⑦Using FTP Client⑧Using Aspera⑦Common Issues

如果是SRR数据,使用[email protected]:/vol1/fastq/SRR885/002/SRR8858432/SRR8858432_subreads.fastq.gz
如果是pub/databases下数据,使用[email protected]:databases/Pfam/current_release/Pfam-A.hmm.gz
[email protected]:software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz
注:pub目录下的所有文件都不出现pub目录,直接从下级目录下载

④可能在某些时间段下载不成功,是链接不成功的原因。就只能用wget/curl等命令下载了。

你可能感兴趣的:(生物信息学,ncbi,数据挖掘)