快速从NCBI下载sra数据

推荐两个软件ascp和prefetch
ASCP
1.下载并安装:

wget http://download.asperasoft.com/download/sw/connect/3.7.2/aspera-connect-3.7.2.141527-linux-64.sh
sh aspera-connect-3.7.2.141527-linux-64.sh

把一些输入文件放到主目录:

cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/

并将程序链接到环境变量里:

ln -sf /home/zqyang/.aspera/connect/bin/* ~/bin/

2.使用匿名账号直接下载数据:

ascp -k 1 -l 100M -i ~/asperaweb_id_dsa.openssh -T anonftp@ftp.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197490/SRR1197490.sra .

3.批量下载:
将数据整理成一个文件file_list.txt 中,文件内容例如:

sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197490/SRR1197490.sra
sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197491/SRR1197491.sra
sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197492/SRR1197492.sra
(每行一个路径)
nohup ascp  -i  ~/asperaweb_id_dsa.openssh --mode recv --host ftp.ncbi.nlm.nih.gov --user anonftp   --file-list  file_list.txt ./ &

4.SRA文件如何找到链接:
去该网址下面找到SRR文件:
https://www.ncbi.nlm.nih.gov/public/

prefetch
这个比较简单:

prefetch SRR1197490

注意文件如果较大,使用-X 调整允许最大文件,如

prefetch -X 100G SRR1197490

文件会自动下载到~/ncbi/public/sra/SRR1197490.sra,然后使用fastq-dump就可以转化成fastq格式

fastq-dump -F --split-3 --gzip SRR1197490.sra

你可能感兴趣的:(生物信息)