这是本人的第一篇文章,欢迎浏览提问,我会在最快时间内答复,谢谢大家。
本文主要是针对新手下载SRA数据过程,我本人已亲自实践有效。按照本文下载SRA数据,需要提前安装Linux系统(常用CentOs或Ubuntu)。需要一定的Linux系统的操作命令认识以及生信知识(包括NCBI数据库检索等)。
需要注意:登录NCBI或EBI-ENA数据库时可能会比较卡或容易失败,那么你可能需要外网登录。
一种储存高通量测序数据格式。高通量测序:即NGS和TGS,通常数据产出在几十到几百MB不等
PRJNA:study_acession
SRP:secondary_study_accession(DRP,ERP)
SAMN:sample_accession
SRS:secondary_sample_accession(DRS,ERS)
SRX:experiment_accession
SRR:run_accession(DRR,ERR)
SRA:submission_accession
如果你想要更多了解SRA数据,请自行查找其他资料。
以SRX5327410数据集为例,进行后续的数据检索与下载。其包括39个SRR,是由Pacbio使用Sequel I测序仪进行的三代测序(小分子实时测序,SMRT),文库类型是CCS-13.5kb。物种:Homo sapiens。
ASpera官网(https://www.ibm.com/products/aspera/downloads)下载 ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
点击其中的Featured client software中的IBM Aspera Connect下面的Download now
选择Linux,即可下再Linux环境下的ASpera安装包。然后上传到你的linux中(这里XShell将很便捷)
或者直接在命令行下载(wget或curl都可以)
wget https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09cne/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
tar xzvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
./ibm-aspera-connect-3.11.1.58-linux-g2.12-64.sh
#运行后默认安装在家目录下
cd
ls -a
cd .aspera/
ls
cd connect/
ls
cd bin/
ls
pwd #获取bin文件所在路径
export PATH=/root/.aspera/connect/bin:$PATH #设置环境,根据上一步的目录设置
cd
ascp #安装成功
你需要提前提交ENA_SRX5327410_sra_aspera.txt或ENA_SRX5327410_fq_aspera.txt。来自在EBI-ENA数据库的文件改变而来。文件内格式
你可以在linux下查看,保证文件格式正确,这对后面是否能成功下载至关重要。
mkdir SRX5327410_sra/
chmod 777 SRX5327410_sra/ #因为我是在root下下载的,根据是否需要选择,可省略
nohup ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list ENA_SRX5327410_sra_aspera.txt /data/SRX5327410_sra/ 2>&1 &
#这里的root/.aspera/connect/etc/asperaweb_id_dsa.openssh是自己该文件的路径
#/data/SRX5327410_sra/ 下载文件存储路径
#ENA_SRX5327410_sra_aspera.txt 若该文件在其他位置,必须是全路径
#前面的参数具体理解可以自行百度,但都是该命令常用且必须
#-k1 断点续传
#nohup ----- 2>&1 & 将命令推到后台运行,看不到运行过程,也可以选择直接运行
ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list ENA_SRX5327410_sra_aspera.txt /data/SRX5327410_sra/
ps -ef | grep ascp
#查看ascp是否运行良好或结束,常用在nohup提交任务后
#至于下载fq文件,命令基本相同
#将参数--file-list ENA_SRX5327410_sra_aspera.txt 改为--file-list ENA_SRX5327410_fq_aspera.txt
#更改下载文件存储路径 /data/SRX5327410_sra/ 改为 /data/SRX5327410_FQ/
下载的39个run的sra文件保存在/data/SRX5327410_sra/目录下,fq文件(XXX.fq.gz)保存在/data/SRX5327410_FQ/目录下。
ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/srr/SRR885/002/SRR8858432 /data/SRX5327410/
ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR885/002/SRR8858432/SRR8858432_subreads.fastq.gz /data/SRX5327410_FQ/
nohup [COMMAND] 2>&1 &
tar xzvf sratoolkit.2.10.9-centos_linux64.tar.gz
cd sratoolkit.2.10.9-centos_linux64/
cd bin/
pwd
export PATH=/root/sratoolkit.2.10.9-centos_linux64/bin:$PATH
NCBI下载的是.sra后缀文件,EBI-ENA数据库下载的sra文件没有后缀,但都储存SRA数据
sra文件转为fq.gz文件:大约需要5~6min
nohup fastq-dump --gzip SRR8858432 2>&1 &
#SRR8858432为下载的sra文件,需要文件绝对路径
sra文件转为fq.文件:大约需要10s左右
fasterq-dump -e 24 -p SRR8858432
#-e:线程数
#-p:显示过程,可在nohup.out文件中查看
nohup fasterq-dump -e 24 -p SRR8858432 2>&1 & #后台运行
cat ./SRR_Acc_List.txt | while read line; do fasterq-dump -e 24 -p /data/SRX5327410_sra/$line -O /root/SRX5327410_FQ/; done
生成的是.fastq文件,在/root/SRX5327410_FQ/目录下