SRA-toolkit使用

        之前下载SRA的数据,使用 prefetch -v SRA    --max-size 100G  下载数据,经常会出现下到一半就断网的情况;后来尝试使用wget下载,但wget下载后的SRA数据,在用fastq-dump转化成fastq时,会出现错误(使用迅雷下载就不会出现这种问题)。后来搜集到一种方法,现记录下来:

Step1:首先下载aspera并安装

                wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

                tar -xzvf aspera-connect-3.7.4.147727-linux-64.tar.gz

                sh  aspera-connect-3.7.4.147727-linux-64.sh

                查看是否安装成功 cd 到家目录,然后ls -a之后会有.aspera目录;.aspera/connect/bin/ascp  -h   测试是否安装成功;

 Step2:将ascp 添加到环境变量

               echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

               source ~/.bashrc

 Step3:使用prefetch下载数据

                prefetch -v ERR1955423 --max-size 100G

                 这样 perfetch就会 默认aspera下载

                 sra数据会下载到家目录下的ncbi/public/sra中

 Step4:将SRA转化为fastq(pair-end)

fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri'   ERR1955398.sra


备忘录-----SRA在NCBI上的存放路径

以下是NCBI 存放SRR5483089的路径

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR548/SRR5483090/

可见ftp构成:

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/+SRR+登陆号前三位数字(548)+/SRR+完整登陆号(5483089)

进入即可看到FTP文件,可以直接下载或者通过复制链接用wget 下载

如果按SRP下载文件的话,构成是

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/+SRP+SRP前三位数字 (105) +/SRP+SRP的完整登陆号(105315)


参考网址:

https://www.cnblogs.com/ywliao/p/7356528.html

https://www.jianshu.com/p/19ae29e54c59

你可能感兴趣的:(SRA-toolkit使用)