使用Aspera,wget和 prefetch下载SRA数据

  • 下载Accession list

进入NCBI——进入SRA数据库——输入物种拉丁名——选择Send to中的Run
Selector——Go

image.png

点击Accession list即可下载,用于后续下载原始数据的输入文件


image.png
  • Aspera下载 参考安装Aspera Connect工具下载sra数据 - (jianshu.com)
[gaozhh01@login ~]$ cd biosoft/
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
bash aspera-connect-3.7.4.147727-linux-64.sh 
cd ..
ls -a #查看根目录下有无.aspera文件夹
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
ascp --help #查看是否可以使用

使用

ascp -QTr -l 300M -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh  [email protected]:/sra/sra-instant/reads/ByRun/sra/ERR/ERR516/ERR5167434/ERR5167434.sra ./

#报错
ascp: Failed to open TCP connection for SSH, exiting.

Session Stop  (Error: Failed to open TCP connection for SSH)

卒 若软件可使用,可参考https://zhuanlan.zhihu.com/p/336794183
代码转自https://zhuanlan.zhihu.com/p/336794183

# Main program

#下载ENA数据
#如果SRR_Acc_List记录的样本编号是类似ERR526291,即ERR+6位数时,运行以下代码下载数据
cat SRR_Acc_List.txt|while read id
do
x=$(echo $id | cut -b1-6)
echo $id
ascp -QT -l 300m -P33001  -i \
${wkd}/asperaweb_id_dsa.openssh \
[email protected]:/vol1/fastq/$x/$id/ ./
done

#########################################################

# Main program
#如果SRR_Acc_List记录的样本编号是类似SRR1016916,即ERR+7位数时,运行以下代码下载数据 
#需要加一个006,
cat SRR_Acc_List.txt|while read id
do
x=$(echo $id | cut -b1-6)
y=$(echo $id | cut -b10-10)
echo $id
ascp -QT -l 300m -P33001  -i \
${wkd}/asperaweb_id_dsa.openssh \
[email protected]:/vol1/fastq/$x/00$y/$id/ ./
done

#Best Regards,  
#Yuan.SH  
#please contact with me via the following ways:  
#(a) e-mail :[email protected]  
  • 使用wget下载
wget https://sra-download.ncbi.nlm.nih.gov/traces/era19/ERR/ERR5167/ERR5167434
  • 也可以使用SraToolkit中的prefetch下载,比wget快
    下载SraToolkit
    参考SraToolkit工具下载与安装_爱学习Guocc的博客-CSDN博客
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.0/sratoolkit.2.11.0-centos_linux64.tar.gz
tar zxvf sratoolkit.2.11.0-centos_linux64.tar.gz
echo 'export PATH=/gss1/home/gaozhh01/biosoft/sratoolkit.2.11.0-centos_linux64/bin:$PATH' >> ~/.bashrc
source .bashrc

也可以不添加环境变量,直接调用

~/tools/sratoolkit.2.11.0-ubuntu64/bin/prefetch ERR5167434
#如果下载多个sra数据,则将sra号放在一个文件里download_id.txt
nohup ~/tools/sratoolkit.2.11.0-ubuntu64/bin/prefetch --option-file download_id.txt >xing.log 2>&1 &

也可以用循环
cat download_id.txt | while read id; do (prefetch $id); done

将sra数据转化为fastq文件


~/tools/sratoolkit.2.11.0-ubuntu64/bin/fastq-dump --split-3 ERR5167434 
#如果有多个数据则
cat download_id.txt | while read a;do fastq-dump --split-3 ${a}.sra; done 
或者
ls *.sra > ls.log

for i in $(cat ls.log)
do
  ~/tools/sratoolkit.2.11.0-ubuntu64/bin/fastq-dump --split-3 $i 
done

或者挂后台循环
ls *.sra > ls.log

for i in $(cat ls.log)
do
  ~/tools/sratoolkit.2.11.0-ubuntu64/bin/fastq-dump --split-3 $i  & >/dev/null
done

你可能感兴趣的:(使用Aspera,wget和 prefetch下载SRA数据)