自己本身是做分子生物学的,有关生物信息学的知识接触很少,于是按照自己的习惯从头摸索。参考以下几个文章对Aspera和SRA Toolkits进行下载、设置和使用,这篇文章是对几个文章的综合整理,留做自己以后学习使用。
—————————————————————————————————————————————
NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。
在NCBI的众多数据库中,有一项是专门保存高通量测序原始数据的,即SRA数据库( Sequence Read Archive)隶属NCBI,它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的,SRA数据库可以用于搜索和展示SRA项目数据,包括SRA主页和 Entrez system,由 NCBI 负责维护。SRA数据库中的数据分为Studies, Experiments, Samples和相应的Runs四个层次:
与NCBI网站相对的是欧洲的EBI (European Bioinformatics Institute)数据库,其中的子数据库——ENA数据库European Nucleotide Archive功能同SRA,并且对数据做了注释,界面更友好,里面可以直接下载 .fastq (.gz)和 .sra文件。
两者在主要功能方面非常类似,同时数据互通。
——————————————————————————————————————————————
需要获取他人发表的公开测序数据,来帮助自己的研究领域,下载.sra文件是为了获取该sra相对应的fastq或者sam文件,通过文件格式转换就可以和自己的pipeline对接上,用于直接分析,所以:
第一步确定编号:我们需要到SRA或者ENA上搜索我们选择好的SRR号/SRS号/SRP号,先在ENA上搜索,如没有再去SRA上搜索,因为ENA下载比SRA快,还可以直接选择fastq格式的数据。
第二步下载数据:从数据库下载 SRA 数据有多种方法,如:用wget或curl等传统命令从 FTP 服务器上下载 sra 文件(警告:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!);用ascp命令下载 sra 文件;使用NCBI的sratoolkit 工具集中的prefetch、fastq-dump和sam-dump直接下载;另外biostar handbook中有一个wonderdump脚本也方便下载数据(目前未验证过)。本文主要介绍前两种方法。
—————————————————————————————————————————————
Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。
Aspera官网:https://downloads.asperasoft.com/en/downloads/8?list
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
#wget 命令的用法参考:wget 下载整个网站,或者特定目录
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#tar命令的用法参考:tar命令的详细解释、linux 压缩 解压
#参数:z(gzip相关)x(解压缩)v(唠叨模式)f(后接文件名)
bash aspera-connect-3.7.4.147727-linux-64.sh
#bash命令的用法参考:Linux基本bash命令(持续更新)
cd /home/name
#cd命令的用法参考:Linux命令总结–cd命令、Linux cd命令
#跳转到当前用户的家目录,也可以用~或者没有任何符号
#该软件默认安装在该文件夹。
ls -a .
#ls 命令的用法参考:linux命令详解之ls命令、ls命令详解
#显示所有的文件,包括隐藏文件(以.开头的文件)
#如果看到.aspera文件夹,代表安装成功。
echo 'export PATH=~/aspera/connect/bin:$PATH' >> ~/.bashrc
#echo命令的用法参考: Linux 命令(27)—— echo 命令
#export命令的用法参考:Linux 命令(49)—— export 命令(builtin)
#修改环境变量参考:Linux系统添加环境变量的方法
source ~/.bashrc
#source命令的用法参考:Linux下source命令详解、linux下的source命令
#也可以关掉当前的shell,重新启动。
#这个命令也还需要进一步的学习。
ascp --help
#查看帮助文档
#至此安装完成
Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合,一般常用于下载SRA文件、从SRA文件中提取fastq,sam文件,查看SRA文件信息等。
NCBI官网下载地址:
下载地址1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
下载地址2:https://github.com/ncbi/sra-tools/wiki/Downloads
官方介绍文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
# Ubuntu Linux 64 bit architecture - non-sudo tar archive
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.10.5-ubuntu64.tar.gz
mv sratoolkit.2.10.5-ubuntu64.tar.gz sratoolkit
针对服务器设置如下:
vi ~/.bashrc #用vi/vim编辑器修改bashrc文件
i #由command line进入insertion line
export PATH=$PATH:~/software/sratoolkit/bin
ESC, :wq #退出vi编辑器并保存文件
source ~/.bashrc #让配置生效
针对自己主机Linux系统设置如下:
vi ~/.bashrc #用vi/vim编辑器修改bashrc文件
i #由command line进入insertion line
export PATH=$PATH:/home/xiaomotong/software/sratoolkit/bin
ESC, :wq #退出vi编辑器并保存文件
source ~/.bashrc #让配置生效
参考:Linux 添加环境变量的五种方法
prefetch -h
Usage:
prefetch [options] <SRA accession | kart file> [...]
Download SRA or dbGaP files and their dependencies
prefetch [options] <SRA file> [...]
Check SRA file for missed dependencies and download them
prefetch --list <kart file> [...]
List the content of a kart file