SRA数据库及下载二代测序原始数据转换为fastq文件

以下内容来之知乎 :https://zhuanlan.zhihu.com/p/62914954,感谢作者分享,我只是Mark下来给自己看,再次申明,不是原创

自己补充概括三点:1. 下载Accession List   ;  2.下载RunInfo Table,里面记录了样品信息、建库信息、测序信息、数据信息 ;    3. 将SRA数据变成 fastq数据,fastq-dump 命令,注意是单端还是双端测序。

fastq-dump -I --split-files SRR390728              Produces two fastq files (--split-files) containing ".1" and ".2" read suffices (-I) for paired-end data.

--split-spot                                                        Split spots into individual reads.


一.SRA数据库:

NCBI网站储存二代测序原始数据的数据库.

(一)SRA数据类型:

1.Studies:研究课题

2.Experiments:实验设计

3.Samples:样品信息

4.Runs:测序结果

(二)对应序列前缀:

1.SRP/ERP:对应studies

2.SRX:对应Experiments

3.SRS:对应Samples

4.SRR:对应Runs


二.Protocol for analysis:

1.登入NCBI-SRA数据库并下载SRAToolkit使用:

下载地址:

Main : Sequence Read Archive : NCBI/NLM/NIH​trace.ncbi.nlm.nih.gov

选择相应操作系统版本下载,本文以 MS Windows 64 bit architecture为例,解压至相关目录(自己指定位置吧(˶‾᷄ ⁻̫ ‾᷅˵))

2.选择SRA数据库,输入关键词或序列号检索,并点击进入结果链接

3.点击详细信息界面中的研究课题编码SRP

4.点击右方“Related SRA data”中的测序结果Runs的数字

5.在下方列表中选择需要的原始数据序列号下载,点击“Download”栏Accession List

6.下载二代测序数据:

(1)使用“运行”输入CMD打开命令行界面,输入以下内容并运行:

prefetch.exe的路径\prefetch.exe —option-file 下载的序列号文件的路径\ 序列文件

例:D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\prefetch.exe —option-file C:\Users\asus\Desktop\SRA_Acc_List.txt

(2)下载完成,二次测序原始数据位于用户家目录ncbi文件夹中

例:C:\Users\asus\ncbi\public\sra\SRR4289741.sra

7.sra格式转化为fastq格式:

(1)使用“运行”输入CMD打开命令行界面,输入以下内容并运行:

fastq-dump.exe的路径\fastq-dump.exe —split-3 sra文件的路径\ sra文件

例:D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\fastq-dump.exe —split-3 C:\Users\asus\ncbi\public\sra\SRR4289741.sra

(2)转换完成,fastq格式数据存在于原数据相同目录下

“—split-3”中“-3”表示双端测序,输出转换结果为两个fastq文件(如果样品为单端测序只返回一个fastq文件)

例:C:\Users\asus\ncbi\public\sra\

编者的话:萌新第一次用知乎,不足之处还请海涵,之所以要做这些是因为自己在学生信,发现网上很多都零散不全,希望对每一次的小操作都系统涵盖一下,以后还会不断更新,大家一起学习进步吧!(˶‾᷄ ⁻̫ ‾᷅˵)

你可能感兴趣的:(SRA数据库及下载二代测序原始数据转换为fastq文件)