2021-02-14 ascp下载ENA数据库文件

因为ENA跟NCBI的SRA数据是互通的,所以根据NCBI的SRP号就可以在ENA搜到相应的数据。目前好像无法由于存储位置的改变,无法直接用ASCP下载SRA数据库,因此直接从ENA数据库下载便是一个非常好的选择。

1 aspera 下载

下载地址:https://www.ibm.com/aspera/connect/ 选择linux版本
或者直接通过命令行下载

# 通过wget命令下载
wget https://d3gcli72yxqn2z.cloudfront.net/connect_latest/v4/bin/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
#解压缩
tar xzvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
#install aspera in server:
sh ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

#查看是否有.aspera文件夹  

cd         # 去家目录 
ls -a     # 如果看到.aspera文件夹,代表安装成功

# 永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc  && cp ~/.bashrc~/.bash_profile

source ~/.bashrc ~/.bash_profile

ascp的用法([在线文档](https://www.ibm.com/support/knowledgecenter/SSXMX3_3.11/connect_user_linux/guide.html):

ascp [参数] 目标文件 目标地址

2. 获得下载地址

ENA主页ENA
搜索SRR号,SRR1805951

图片.png

点击PRJNA275632
图片.png

选择自己要下载的runs,然后download report TSV,其中包含了fastq文件以及srr文件的下载地址
图片.png

图片.png

3. Aspera单个文件下载

linux中下载ENA数据方式如下:

ascp -QT -l 300m -P33001 -i path/to/aspera/installation/etc/asperaweb_id_dsa.openssh 
[email protected]:vol1/fastq/ERR164/ERR164407/ERR164407.fastq.gz 
local/target/directory

所以我们获得下载链接要改成相应的形式;
一般Aspera安装在家目录,则下载方式为

ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz .

注意最后面的.为下载至的目录。常用的参数包括:
-v verbose mode 唠叨模式,能让你实时知道程序在干啥,方便查错。
-T 取消加密,否则有时候数据下载不了
-i 提供私钥文件的地址,免密从SRA和ENA下载,不能少,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件
-l 设置最大传输速度,一般200m到500m,如果不设置,反而速度会比较低,可能有个较低的默认值
-k 断点续传,一般设置为值1
-Q 用于自适应流量控制,磁盘限制所需
-P 用于SSH身份验证的TCP端口,一般是33001

4.批量下载(参考生新技能树jimmy老师)使用ebi数据库直接下载fastq测序数据的改进脚本

获取下载链接侯,我们建立如下fq.txt文件
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/009/SRR1039509/SRR1039509_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/009/SRR1039509/SRR1039509_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/004/SRR1039514/SRR1039514_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/004/SRR1039514/SRR1039514_2.fastq.gz
然后应用如下的脚本

cat fq.txt |while read id 
do
ascp -QT -l 300m -P33001  \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh   \
era-fasp@$id  .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

你可能感兴趣的:(2021-02-14 ascp下载ENA数据库文件)