SRA数据库及下载二代测序原始数据转换为fastq文件

以下内容来之知乎：https://zhuanlan.zhihu.com/p/62914954，感谢作者分享，我只是Mark下来给自己看，再次申明，不是原创：

自己补充概括三点：1. 下载Accession List ； 2.下载RunInfo Table，里面记录了样品信息、建库信息、测序信息、数据信息 ； 3. 将SRA数据变成 fastq数据，fastq-dump 命令，注意是单端还是双端测序。

fastq-dump -I --split-files SRR390728 Produces two fastq files (--split-files) containing ".1" and ".2" read suffices (-I) for paired-end data.

--split-spot Split spots into individual reads.

一.SRA数据库：

NCBI网站储存二代测序原始数据的数据库.

（一）SRA数据类型：

1.Studies：研究课题

2.Experiments：实验设计

3.Samples：样品信息

4.Runs：测序结果

（二）对应序列前缀：

1.SRP/ERP：对应studies

2.SRX：对应Experiments

3.SRS：对应Samples

4.SRR：对应Runs

二.Protocol for analysis：

1.登入NCBI-SRA数据库并下载SRAToolkit使用：

下载地址：

Main : Sequence Read Archive : NCBI/NLM/NIHtrace.ncbi.nlm.nih.gov

选择相应操作系统版本下载，本文以 MS Windows 64 bit architecture为例，解压至相关目录（自己指定位置吧(˶‾᷄ ⁻̫ ‾᷅˵)）

2.选择SRA数据库，输入关键词或序列号检索，并点击进入结果链接

3.点击详细信息界面中的研究课题编码SRP

4.点击右方“Related SRA data”中的测序结果Runs的数字

5.在下方列表中选择需要的原始数据序列号下载，点击“Download”栏Accession List

6.下载二代测序数据：

（1）使用“运行”输入CMD打开命令行界面，输入以下内容并运行：

prefetch.exe的路径\prefetch.exe —option-file 下载的序列号文件的路径\ 序列文件

例：D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\prefetch.exe —option-file C:\Users\asus\Desktop\SRA_Acc_List.txt

（2）下载完成，二次测序原始数据位于用户家目录ncbi文件夹中

例：C:\Users\asus\ncbi\public\sra\SRR4289741.sra

7.sra格式转化为fastq格式：

（1）使用“运行”输入CMD打开命令行界面，输入以下内容并运行：

fastq-dump.exe的路径\fastq-dump.exe —split-3 sra文件的路径\ sra文件

例：D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\fastq-dump.exe —split-3 C:\Users\asus\ncbi\public\sra\SRR4289741.sra

（2）转换完成，fastq格式数据存在于原数据相同目录下

“—split-3”中“-3”表示双端测序，输出转换结果为两个fastq文件（如果样品为单端测序只返回一个fastq文件）

例：C:\Users\asus\ncbi\public\sra\

编者的话：萌新第一次用知乎，不足之处还请海涵，之所以要做这些是因为自己在学生信，发现网上很多都零散不全，希望对每一次的小操作都系统涵盖一下，以后还会不断更新，大家一起学习进步吧！(˶‾᷄ ⁻̫ ‾᷅˵)