官方文档
– 2020-3-26 18:02:21 –
最近重装了 conda 环境, 于是重新安装了 sra-tools.
使用时发现 fasterq-dump 的功能已经转移到 fastq-dump 中了, 于是踩了很多坑, 特此记录
~]$ fasterq-dump -e 16 --split-3 /■/■/../SRR■.sra
2020-03-26T07:09:39 fasterq-dump.2.10.3 err: name not found while resolving query within virtual file system module - faile
'../SRR■.sra' - Cannot resolve accession ( 404 )
fasterq-dump (PID ■) was killed (signal 9)
..]$ fasterq-dump -e 16 --split-3 ../SRR■.sra
2020-03-26T07:13:51 fasterq-dump.2.10.3 err: name not found while resolving query within virtual file system module - faile
'../SRR■.sra' - Cannot resolve accession ( 404 )
fasterq-dump (PID ■) was killed (signal 9)
虽然还是能看到 fasterq-dump 的 help, 但反正就是用不了. 换成 fastq-dmp. 惊喜发现
--disable-multithreading disable multithreading
fastq-dump 也用上多线程了! 那就用 fastq-dump 吧. 不过为什么 --split-3 命令出错了呢…
..]$ fastq-dump fastq-dump --gzip --split-3 SRR■.sra
unrecognized option: '--split-3'
..]$ fastq-dump --gzip --split-3 SRR■.sra
unrecognized option: '--split-3'
..]$ fastq-dump --gzip -3 SRR■.sra
unrecognized option: '-3'
然后用 sbatch 命令提交到服务器运行 (前情提要: 本环境中 sbatch 提交运行的服务器不能联网), 没一会就显示 FAILED, 查看错误日志:
Failed to call external services.
难道还需要联网吗?
下面是新手记录的安装过程
对于许多生信软件, ```conda 是一个很好的包管理系统, 只需运行
conda install -n
env -c bioconda
package -y
比如说要在环境 biotools
中安装 sra-tools
, 输入 conda install -n biotools -c bioconda sra-tools -y
即可一键安装, 无需确认.
从 NCBI 中找到对应的数据集, 记录
Run
一栏下的编号;
若需要下载很多数据, 可以点击
收藏当前选择. 最后下载
下载的 SraAccList.txt
中就是所有选中的数据的 SRR 号了.
有三种方法可以下载. sra-tools 中自带的方法是 prefetch
.
输入 prefetch --option-file SraAccList.txt --output-directory
dir 即可. 后台下载可使用 nohup
命令. 最后会将 .sra 文件下载到同名文件夹中.
fastq 可以从 *.sra
中提取数据, 这里批量操作:
for srr in $(cat SraAccList.txt);
do
cd $srr/
fastq-dump --split-e $srr.sra
cd -;
done
唉…