2020-01-17 【转录组】一、下载SRA、安装并使用fasterq-dump(SRA to fastq)

下载sra,最新版prefetch已不支持aspera,原因是ncbi数据存储已改成云模式,ascp并不支持,速度没优势

prefetch --option-file ~/data/mmussr.txt -O ~/data/

之前用fastq-dump用以下命令一次将全部sra转为fastq.gz
可惜fastq-dump是个单线程软件,无法多线程执行,非常慢

 fastq-dump --gzip --split-3 1data/SRA/*.sra -O 1data/01fastq/

今天转了几个小时,不单速度慢,而且老出错,“段错误 (核心已转储)”


选区_004.png

查了下看看有什么方法可以改善,发现可以安装最新版的sratoolkit
使用其内置的fasterq-dump工具,用法和fastq-dump一样
支持多线程,默认6 threads,但不支持压缩成gz格式
下载安装脚本Cloud - apt-get install script - for Debian and Ubuntu - requires sudo permissions

derek@Ubuntu1804:~/Downloads$ bash setup-apt.sh 
[sudo] derek 的密码: 
setup-apt.sh: 3: [: -ne: unexpected operator
正在读取软件包列表...
正在分析软件包的依赖关系树...
正在读取状态信息...
libxml-libxml-perl 已经是最新版 (2.0128+dfsg-5)。
libxml-libxml-perl 已设置为手动安装。
升级了 0 个软件包,新安装了 0 个软件包,要卸载 0 个软件包,有 0 个软件包未被升级。
installing sra toolkit to /usr/local/ncbi
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 89.9M  100 89.9M    0     0  1127k      0  0:01:21  0:01:21 --:--:--  714k
Please 'source /etc/profile.d/sra-tools.sh' to setup your path
derek@Ubuntu1804:~/Downloads$ source /etc/profile.d/sra-tools.sh
选区_008.png

需要确认一些选项,我默认确认

derek@Ubuntu1804:~/1data/SRA$ fasterq-dump -h
Usage: fasterq-dump [ options ] [ accessions(s)... ]
fasterq-dump --split-3 SRR*.sra -e 24 -p

试了下用24线程,但也就那样,大部分core工作效率低下
-p 可以显示进程


选区_006.png

懒得设置输出目录,直接在SRA文件夹输出结果,运行一开始会生成一个tmp文件夹


选区_005.png

然后生成相应的1,2的fastq文件(我的SRA是PE)


选区_007.png

经过几小时,最后得到283Gb的fastq文件
选区_009.png

你可能感兴趣的:(2020-01-17 【转录组】一、下载SRA、安装并使用fasterq-dump(SRA to fastq))