下载sra原始数据(包含储存在sra-sos的数据)

对于一个做生信分析的学生,从NCBI上下载原始的测序文件是一项基本技能。
sra文件可以理解为是fastq的压缩文件。sra文件可以通过SRA Toolkit软件包下载。但是实际上,我尝试了无数次,aspera也装了,但都不能下载。之后在实验室师兄带领下,才学会了一套简单易行的方法。
但是sra toolkit的软件包还是要装的,因为之后需要用其中的fastq-dump把sra转换成fastq文件。

现在可以使用的ftp

ENA首页:https://www.ebi.ac.uk/ena/browser/home
ftp://ftp.sra.ebi.ac.uk/vol1/fastq
ascp -QT -l 300m -P33001 -i ~/anaconda3/etc/asperaweb_id_dsa.openssh [email protected]:vol1/fastq/SRR032/SRR032087/SRR032087.fastq.gz ./

获取想要的data的SRR号

发表的文章后面都是有GEO accession号的,以JIPB上的这篇文章为例 paper_link,我们翻到后面的MATERIALS AND METHODS部分,就能找到原始数据对应的GEO号:GSE124486
登陆ncbi的GEO DataSets GEO DataSets,输入GEO号,搜索。(当然,也可以直接在这里搜索自己想要的文章,关键词等)
下载sra原始数据(包含储存在sra-sos的数据)_第1张图片
下载sra原始数据(包含储存在sra-sos的数据)_第2张图片
点击页面results的第一个直接进
下载sra原始数据(包含储存在sra-sos的数据)_第3张图片
可以发现,accession下共有16个samples,点击其中一个,以GSM3530722为例,点击进入
下载sra原始数据(包含储存在sra-sos的数据)_第4张图片
这一个页面就是对这组数据的建库信息的介绍,在页面靠下方部分,有一个sra链接:SRX5180319,是这个实验的实验号,再次点击
下载sra原始数据(包含储存在sra-sos的数据)_第5张图片
这一页其实就是关于这个实验的介绍了。页面Runs(run可以理解为就是原始数据的意思,我也不知道为什么要用run这个词。。)部分有两个链接,其中一个链接就是这个实验原始数据SRR号,但是点击了之后并不会直接下载,而是跳到一个对这个实验原始数据信息进行介绍的页面,这个就不介绍了。回过头来,原来的页面的上方是有两个All experiments链接的,一个是该study的,一个是该sample的,点击第一个链接
下载sra原始数据(包含储存在sra-sos的数据)_第6张图片
然后点击页面右上部的Send to,选择File,下面的Format选择RunInfo,然后Create File,就会下载下来一个csv文件,使用excel打开,就能得到多组数据的SRR号,具体页面如下。(同时,我们应该理解到,如果我们直到这个SRX开头的实验号,直接在SRA中搜索,那么就能直接到达该页面)
在这里插入图片描述

里面第一列就是SRR号,各种基本信息以及下载该数据的完整链接。
同时,如果我们点击之前页面第一个All experiments 后面的All Runs链接,就会到达下面的页面
下载sra原始数据(包含储存在sra-sos的数据)_第7张图片
RunInfo Table也能得到数据的各种信息,但是其中没有下载链接
不过,通过该页面也会发现,DATASTORE provider只有一个是ncbi,另外两个是sra-sos.

下载SRR号对应的原始数据

SRR数据如果是储存在ncbi上的话
例如上图中的SRR8370181,我们可以通过lftp下载。首先,我们在浏览器上看一下到底是什么情况:
在浏览器上输入:ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ (ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/已不能用)
ftp具有很好的可视化页面,我们可以像操作windows系统中文件夹那样点击操作
得到以下页面
下载sra原始数据(包含储存在sra-sos的数据)_第8张图片
点击SRR,我们要下载的是SRR8370181对应的文件,那么就找到SRR837文件夹(也可以在浏览器网址后面直接添加SRR837),然后再找到SRR8370181文件夹
此时的网址为:ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR837/001/SRR8370181 (/ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181已不能用)
内容为:
在这里插入图片描述
其实上再点击这个SRR8370181.sra就可以下载到电脑上了。
但是,毕竟下载好了还得传到服务器上,太麻烦。不如直接利用lftp下载到服务器上。
在服务器上:

>lftp  ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR837/001/SRR8370181

就进入到了该文件夹下,之后的操作就和在服务器上的操作一样,ls 列出文件夹下的文件,cd… 进入上一层文件夹,pget设置多线程进行下载

lftp ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181> ls
-r--r--r--   1 ftp      anonymous 1441021774 Dec 26 18:59 SRR8370181.sra
lftp ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181> pget -n 16 SRR8370181.sra &

这样就可以下载到服务器上了,下载下来的文件名称也是SRR8370181.sra
如果文件比较多的话,还是推荐这种方式,多个任务并行下载,很快就能搞定,特别是学校ftp不限速的话。
但是,在下载SRR8370179时,就会出现一个问题

lftp ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181> cd ../SRR8370179
cd: Access failed: 550 /sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370179: No such file or directory

我们直接在浏览器ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/ 网页下去看时,也会发现,SRR837文件夹下根本就没有SRR8370179文件夹
下载sra原始数据(包含储存在sra-sos的数据)_第9张图片
这就是之前说的问题了,SRR8370181的DATASTORE provider是ncbi,而SRR8370179的DATASTORE provider是sra-sos,也就是说,这个数据压根就不在ncbi上。。
之前也说了,拿到的csv文件夹里有对应的SRR号以及其下载链接
例如:SRR8370179对应的链接即为:https://sra-download.ncbi.nlm.nih.gov/sos/sra-pub-run-2/SRR8370179/SRR8370179.1,那么,在服务器上

>wget https://sra-download.ncbi.nlm.nih.gov/sos/sra-pub-run-2/SRR8370179/SRR8370179.1

就可以下载了。下载下来的文件名字为SRR8370179.1

sra转换为fastq文件

之前也说过,sra文件可以理解为fastq文件的压缩。这里就要使用SRA Toolkits包里面的fastq-dump了。如果想省空间的话,那么就加上–gzip这个命令。

>fastq-dump --gzip SRR8370181.sra

即可将文件转换为fastq文件,这组数据是单端测序的,那么上面命令就可以了。如果是双端测序,那么可以加上 一个 --split-files命令,即

>fastq-dump --gzip --split-files SRR8370181.sra

即可将文件转换为paired end的两个fastq文件。
同时,对于SRR8370179.1,是没有sra格式的后缀,其实这个不影响,一样的处理就行了

>fastq-dump --gzip SRR8370179.1

一样可以转化为fastq文件。如果真的是有强迫症的话,直接

>mv SRR8370179.1 SRR8370179.sra

就是了。

你可能感兴趣的:(数据处理,sra下载,sra-sos,fastq)