使用Aspera高速下载ENA/SRA测序数据

  • 批量下载EBI数据

1、获取ascp下载地址

EBI网站首页输入检索号,分别选择显示条目sample name和FASTQ files (Aspera),点击 TEXT 进行下载,生成文件: sample_alias.txt和fastq_aspera.txt

[EBI网址]https://www.ebi.ac.uk/ena/data/view/PRJEB7888

2、下载测序数据

cat fastq_aspera.txt | sed '1d' | sed 's/fasp.sra.ebi.ac.uk://g' | sed 's/;/\n/g' > sample_fastq.txt
nohup /export/home/hushy/.aspera/connect/bin/ascp -i /export/home/hushy/.aspera/connect/etc/asperaweb_id_dsa.openssh -k1 -Tr -l100m -P33001 --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list sample_fastq.txt . &
# .表示输出到当前路径,也可以指定为其他路径 

3、将样本名称和数据路径合并成一个文件

cat sample_alias.txt | sed '1d' > sample_name.txt 
find /data/hushy/study03/* -name "*fastq.gz" | tee sample_data.txt | cut -d '/' -f 5 - | cut -d '_' -f 1 - | paste - sample_data.txt | awk '{a[$1]=a[$1]$2" "}END{for(i in a){print i,a[i]}}' | awk 'FNR==NR{a[NR]=$1;next}{$1=a[FNR]}1' sample_name.txt - | sed 's/ /\t/g' > study03_sample_list.txt
  • 分批下载EBI数据

1、获取下载地址

EBI搜索PRJEB ID,单击样本的右键,复制链接,如:
fasp.sra.ebi.ac.uk:/vol1/fastq/ERR221/002/ERR2216042/ERR2216042_1.fastq.gz

2、下载数据

/export/home/hushy/.aspera/connect/bin/ascp -i /export/home/hushy/.aspera/connect/etc/asperaweb_id_dsa.openssh -k1 -Tr -l100m -P33001 [email protected]:/vol1/fastq/ERR221/002/ERR2216042/ERR2216042_1.fastq.gz .
# ENA在Aspera的用户名是era-fasp,ENA数据库的数据存放位置是fasp.sra.ebi.ac.uk,命令末尾的空格和.符号不可省略
  • 分批下载NCBI数据

1、获取下载地址

ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR699/SRR6994553/SRR6994553.sra

2、下载数据

/export/home/hushy/.aspera/connect/bin/ascp -i /export/home/hushy/.aspera/connect/etc/asperaweb_id_dsa.openssh -k1 -Tr -l100m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR699/SRR6994553/SRR6994553.sra

3、使用sratoolkit将.sra文件转换成.fastq.gz文件

/share/apps/sratoolkit.2.9.6-1-centos_linux64/bin/fastq-dump --split-3 SRR6994553.sra

你可能感兴趣的:(使用Aspera高速下载ENA/SRA测序数据)