【生信知识】---全网最佳方案下载SRA数据库文件!

前言:众所周知,NCBI对我朝的局域网不甚友好,对于国内的生信玩家来说,想要下载SRA数据库的.sra或者.fastq经常遇到网速问题,慢到你怀疑人生有木有!因此,我在这里摸索了一个目前看来最高效的方法,那就是。。。ascp+ENA数据库!

详解:
1.首先安装ascp
这个神器就不多介绍了,没有安装的同学先把ascp安装到自己的服务器上吧,推荐安装教程

www.bioinfo-scrounger.com/archives/171/

2.ENA数据库
ENA数据库,全称European Nucleotide Archive,是EBI提供用于存储核酸序列信息的综合数据库,相当于NCBI的SRA,而且两个数据库数据是交换共享的。
网址

www.ebi.ac.uk/ena

ENA数据库主页

3.下载示例
以SRR11637845为例,测序物种为Acinetobacter baumannii,然后在ENA数据库的右上角搜索栏中进行检索,如图:
检索SRR11637845

点击research按钮,进入检索结果界面,可以看到检索到两个结果,选择run结果,如图:
SRR11637845的检索结果

然后就进入了该run的详情界面,可以看到测序平台、研究项目编号、双端单端等信息,红框中就是测序reads的下载链接,如图:
SRR11637845的原始reads下载

右键单击,复制链接地址,然后粘贴出来观察一下:

ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_2.fastq.gz

4.使用ascp进行下载

ascp -QT \#-Q用于自适应流量控制,磁盘限制所需;-T是取消加密,否则有时候数据下载不了
-l 300m \#-l设置最大传输速度,一般200m到500m,若不设置,反而速度会较低,可能有个较低的默认值
-P33001 \#-P用于SSH身份验证的TCP端口,一般是33001
-i /home/xxx/.aspera/connect/etc/asperaweb_id_dsa.openssh \#-i是指定ascp的密钥位置,根据自己的安装目录设定
[email protected]:/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_1.fastq.gz . #era-fasp是EBI在ascp服务器上的注册用户名,然后@fasp.sra.ebi.ac.uk表示ENA数据库的域名,.gz后面的.是指定下载到当前目录,否则ascp会报错

这个下载速度,没谁了


28.6Mb/s

总共用时不到1分钟!


43 seconds

你可能感兴趣的:(【生信知识】---全网最佳方案下载SRA数据库文件!)