SRA Toolkit

一、简介:

SRA Toolkit是将ncbi上 .sra文件

(文献中的各种数据,如:Chip、Rna-seq等一般都以sra格式储存在ncbi数据库中https://www.ncbi.nlm.nih.gov/sra/)

下载并转换为 .fstaq.gz文件的工具。

二、软件的下载及环境变量的配置:

下载:wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

解压:tar -xvzf  sratoolkit.2.9.2-ubuntu64.tar.gz

检查:ls sratoolkit.2.9.2-ubuntu64/bin      (看到各种软件则可)

配置环境变量(根据个人情况不同,略有差异):

(1)vi ~/.bashrc          (2)export PATH=$PATH:/public/home/zffang/software/sratoolkit.2.9.2-ubuntu64/bin

(3)source ~/.bashrc (使配置生效)

三、文献数据的下载

1.将文献的SRA accession numbers输入“一”中网址search,就会得到具体的数据信息和SRR编号。

2.prefetch SRR----

3.得到的数据的.sra文件会自动生成路径:--/ncbi/public/sra

四、格式的转化

1.确定数据的测序类型:单端或双端

2.对于双端测序,.sra文件中包含了两条reads的序列信息,所以要将它们拆分开。

  使用fastq-dump拆分PE文件时有两种常用的参数,--split-files 和--split-3    (具体的差异还没有搞清楚,本次用的是-3),最好在该

  参数后面加-gzip则会自动生成.gz文件,以节约内存空间。

  对于单端测序自然就不用拆分。

你可能感兴趣的:(SRA Toolkit)