2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)

有些时候,我们需要从genebank中下载别人原始的测序数据来学习。

最开始的时候,我只是从NCBI上面之间点击下载fastq文件,用浏览器自带的下载工具下载,但是有些时候,你会发现并没有fastq文件可以下载,取而代之的是SRA。那么什么是SRA呢?

Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for new discoveries by comparing data sets. The SRA stores raw sequencing data and alignment information from high-throughput sequencing platforms, including Roche 454 GS System®, Illumina Genome Analyzer®, Applied Biosystems SOLiD System®, Helicos Heliscope®, Complete Genomics®, and Pacific Biosciences SMRT®.

大家可以具体看NCBI上的介绍:
https://www.ncbi.nlm.nih.gov/sra

SRA数据有四类

Studies (SRP)

Experiments (SRX)

Runs (SRR)

Samples (SRS)

一般测序仪下来的原始数据就是Run

所以我们一般可以看到很多文章后面会写
The SRA accession numbers are SRR*******

然后我们去下载
我们在NCBI上面SRA搜索中输入 SRR****


2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第1张图片
可以出来这个原始数据的例子

然后你点击去,发现下载要使用一个工具 sratoolkit

2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第2张图片
we need SRA Toolkit

那么我就来安装一下

点击之后选择你电脑的版本


2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第3张图片
我这里是mac os

然后我创建了一个文件夹, 使用wget 下载

2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第4张图片
下载sratoolkit.png

使用prefetch 下载

2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第5张图片
使用prefetch下载.png

过一会儿就下载好了


2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第6张图片
下载成功.png

文件在路径在


2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第7张图片
在用户路径下ncbi文件夹里面

下载完了之后,发现其实这个软件还是有很多功能的


2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第8张图片
要去查看Document

我这里来试一试转换为 fastq文件,文件大的话还是有点耗时间的。


要等一会儿

OK 了


对应的fastq

其实还有很多的实用工具可以使用,要看懂帮助手册。

补充 双端测序分成 2个reads

2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用)_第9张图片
分成2个reads.png

你可能感兴趣的:(2018-04-13 从genbank中下载SRA文件(SRA Toolkit的安装和使用))