NGS小技能(2):如何进行SRA到fastq格式的快速转换

前言

生物信息分析人员一般会接触到从NCBI等网站下载的SRA数据,之前也介绍了下载SRA数据的几种方式。下面,我就简单介绍一下如何将下载的sra格式数据转换成为常用的fastq等格式。

方法

1、NCBI sratoolkit 工具的fastq-dump命令

1)下载sratoolkit

$ wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz

2)解压缩

$ tar xzvf sratoolkit.2.8.2-centos_linux64.tar.gz

3)添加环境变量

$ echo "export PATH=$PATH:/Software/sratoolkit.2.8.2-centos_linux64/bin" >> ~/.bash_profile
$ source ~/.bash_profile

4)格式转换

单端测序:

$ fastq-dump SRR029945.sra -O ./ (结果生成:SRR029945.fastq)
$ fastq-dump --fasta SRR029945.sra -O ./ (结果生成:SRR029945.fasta)

双端测序:

$ fastq-dump SRR2090164.sra --split-3 -O ./ (结果生成:SRR2090164_1.fastq,SRR2090164_2.fastq)
$ fastq-dump SRR2090164.sra --split-3 --gzip -O ./ (结果生成:SRR2090164_1.fastq.gz, SRR2090164_2.fastq.gz)

2、pfastq-dump 让转换速度提升数倍

1)下载pfastq-dump

$ git clone https://github.com/inutano/pfastq-dump
$ cd pfastq-dump/bin/
$ chmod a+x pfastq-dump
$ cp pfastq-dump /Software/sratoolkit.2.8.2-centos_linux64/bin

2)转换格式

单端测序:

$ pfastq-dump SRR029945.sra -O . -t 8 (8线程)

双端测序:

$ pfastq-dump SRR2090164.sra --split-3 --gzip -O ./ -t 8 (8线程)

你将会体会到飞一样的速度~

结语

更多相关博文,可阅读:
hoptop:Fastq-dump: 一个神奇的软件
inutano:parallel-fastq-dump implementation in bash script

参考

马省伟:SRA快速转fastq---即多核版fastq-dump

你可能感兴趣的:(NGS小技能(2):如何进行SRA到fastq格式的快速转换)