使用SRA Toolkit下载NCBI-SRA原始数据教程

SRAtoolkit是NCBI开发的一个用于SRA文件处理的软件包,包含许多有用的工具。

一. 下载安装

1. 可以在NCBI上下载,网址为:

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
我们的服务器使用的是centos操作系统,可以使用wget命令直接下载到服务器端,命令如下

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.1/sratoolkit.2.11.1-centos_linux64.tar.gz

2. 解压安装

下载之后使用tar命令解压后就可以直接使用

tar zvxf sratoolkit.2.11.1-centos_linux64.tar.gz

3. 测试安装是否成功

#输入软件所在位置并输入 -h
~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h

若显示如下图则可以使用了


image.png

也可以用conda快捷安装

4. 将sratoolkit 添加到环境变量

#进入环境变量所在的目录后输入
echo 'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH'  >> ~/.bashrc
source ~/.bashrc
#这里面的~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin表示是sratoolkit 所在的目录

5. 再次测试sratoolkit 的安装

将sratoolkit路径加入环境变量之后就可以直接使用sratoolkit了,不需要每次使用时再输入安装路径:
输入

fastq-dump -h

屏幕显示为


image.png

则表示可以使用了。

6. 更改下载路径

若不修改,则下载到~/ncbi/public/sra 目录下, 在服务器上通常需要下载到指定目录, 所以安装好以后需要更改默认下载目录.
找到并进入sratoolkit所在目中的bin文件夹:输入 ./vdb-config -i ,会出现如下的界面:


image.png

按上下键移动,到Change,回车后选择对应的目录『该目录必须为空』,移动到Save回车后,移动到Exit回车

二、SRA数据的下载

如果下载单个样品的SRA,可以在NCBI上先找到SRA 的ID,如在NCBI上找到的Oreocharis longifolia ID为 SRR12339613,可以在服务器上输入

nohup fastq-dump SRR12339613 &

即可进行下载SRA文件.
或直接将文件下载并转成双端的fastq的gz压缩文件。

nohup fastq-dump --split-files SRR12339613 -gzip & 
# --split-files -gzip 会将SRA文件下载的同时分割成正反两个方向测序的文件并进行压缩

下载之后会获得下图这样的文件,就是转录组双向测序的文件.


image.png

若需要批量下载,可先获得ID list, 如若需要某一个项目中的所有SRA数据,可以直接在NCBI中搜索该project的ID,获得Accession List。


image.png

然后输入

prefetch --option-file SRR_Acc_List.txt 

进行批量下载
sratoolkit常用命令

fastq-dump SRR12339613  #将sra转换成fastq

fastq-dump --fasta 50 SRR12339613  #sra转换成fasta,50为每行50个碱基

fastq-dump --split-files SRR12339613  #将双端测序文件分开

fastq-dump --split-3 filename其中--split-3参数代表着如果是单端测序就生成一个  、.fastq文件,如果是双端测序就生成_1.fastq 和*_2.fastq 文件。

若下载下来的为sra文件需要批量转化为fastq文件,可以使用简单的for循环脚本:

for i in *sra
do
  echo $i
  fastq-dump --split-3 $i
done

你可能感兴趣的:(使用SRA Toolkit下载NCBI-SRA原始数据教程)