sra-tools 新 feature

sra-tools 新 feature

官方文档

– 2020-3-26 18:02:21 –
最近重装了 conda 环境, 于是重新安装了 sra-tools.
使用时发现 fasterq-dump 的功能已经转移到 fastq-dump 中了, 于是踩了很多坑, 特此记录

~]$ fasterq-dump -e 16 --split-3 /■/■/../SRR■.sra
2020-03-26T07:09:39 fasterq-dump.2.10.3 err: name not found while resolving query within virtual file system module - faile
'../SRR■.sra' - Cannot resolve accession ( 404 )
fasterq-dump (PID ■) was killed (signal 9)
..]$ fasterq-dump -e 16 --split-3 ../SRR■.sra
2020-03-26T07:13:51 fasterq-dump.2.10.3 err: name not found while resolving query within virtual file system module - faile
'../SRR■.sra' - Cannot resolve accession ( 404 )
fasterq-dump (PID ■) was killed (signal 9)

虽然还是能看到 fasterq-dump 的 help, 但反正就是用不了. 换成 fastq-dmp. 惊喜发现

     --disable-multithreading      disable multithreading

fastq-dump 也用上多线程了! 那就用 fastq-dump 吧. 不过为什么 --split-3 命令出错了呢…

..]$ fastq-dump fastq-dump --gzip --split-3 SRR■.sra
unrecognized option: '--split-3'
..]$ fastq-dump --gzip --split-3 SRR■.sra 

unrecognized option: '--split-3'
..]$ fastq-dump --gzip -3 SRR■.sra        
unrecognized option: '-3'

然后用 sbatch 命令提交到服务器运行 (前情提要: 本环境中 sbatch 提交运行的服务器不能联网), 没一会就显示 FAILED, 查看错误日志:

Failed to call external services.

难道还需要联网吗?

fastq 的文档问题很大, 诚不我欺…


下面是新手记录的安装过程

安装 sra-tools

对于许多生信软件, ```conda 是一个很好的包管理系统, 只需运行
conda install -n env -c bioconda package -y

比如说要在环境 biotools 中安装 sra-tools, 输入 conda install -n biotools -c bioconda sra-tools -y 即可一键安装, 无需确认.

下载生信数据

收集数据 SRR 号

从 NCBI 中找到对应的数据集, 记录
在这里插入图片描述
Run 一栏下的编号;

若需要下载很多数据, 可以点击
sra-tools 新 feature_第1张图片
收藏当前选择. 最后下载sra-tools 新 feature_第2张图片
下载的 SraAccList.txt 中就是所有选中的数据的 SRR 号了.

下载到环境

有三种方法可以下载. sra-tools 中自带的方法是 prefetch.
输入 prefetch --option-file SraAccList.txt --output-directory dir 即可. 后台下载可使用 nohup 命令. 最后会将 .sra 文件下载到同名文件夹中.

提取数据

fastq 可以从 *.sra 中提取数据, 这里批量操作:

for srr in $(cat SraAccList.txt);
do 
	cd $srr/
	fastq-dump --split-e $srr.sra
	cd -;
done

唉…

你可能感兴趣的:(sra-tools 新 feature)