fastq-dump并行版pfastq-dump的使用

fastq-dump转换SRA文件到fastq文件很慢,并行版本成为趋势;

无论怎么换,先要打好基础,使用并行版本的前提是要保证NCBI的fastq-dump可以在服务器上正常运行。

首先安装Sratoolkit的最新版(v.2.9.2):

mkdir -p /path-to-Sratoolkit/ && cd /path-to-Sratoolkit/

wget  https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz && \

tar zxfv sratoolkit.2.9.2-ubuntu64.tar.gz&& \

mv sratoolkit.2.9.2-ubuntu64/* . && \ rm -rf sratoolkit.2.9.2-ubuntu64.tar.gz sratoolkit.2.9.2-ubuntu64


下载pfastq-dump:

git clone https://github.com/inutano/pfastq-dump && \

cd pfastq-dump && \

chmod a+x bin/pfastq-dump && \

ln -s bin/pfastq-dump  /path-to-Sratoolkit/bin


把安装的路径加入到账号下的$PATH中:

echo 'PATH=/home/luna/Desktop/Software/Sratoolkit/bin:$PATH' >> ~/.bashrc && \

cp ~/.bashrc ~/.bash_profile && \

source ~/.bashrc ~/.bash_profile


使用pfastq_dump,因为pfastq_dump是基于fastq_dump写的一个bash程序,所以参数是相同的:

对于单端数据转换,转换后文件是fq.gz:

for id in *sra;    do pfastq-dump --threads 10 ./$id --gzip;    done 

对于双端数据转换,转换后文件是fq.gz:

for id in *sra;        do pfastq-dump  --threads 8 ./$id --split-3 --gzip;    done 


直接用sra号下载并解压fastq文件,但是推荐下载好文件再使用fastq_dump转换,且文件后缀是.sra(请注意):

单端数据:

for id in SRR799545  SRR799544;    do pfastq-dump --threads 10 -s $id --gzip;    done

双端数据:

for id in SRR799545  SRR799544;    do pfastq-dump --threads 10 -s $id --split-3 --gzip;    done


经过测试,其实也不是那么的快啊!!很揪心!

你可能感兴趣的:(fastq-dump并行版pfastq-dump的使用)