RNA-seq流程学习笔记(1)-Ubuntu系统安装SRA数据下载软件Aspera connect和SRT-Toolkit

自己本身是做分子生物学的,有关生物信息学的知识接触很少,于是按照自己的习惯从头摸索。参考以下几个文章对Aspera和SRA Toolkits进行下载、设置和使用,这篇文章是对几个文章的综合整理,留做自己以后学习使用。

  1. 有关生物信息学数据库,参考:
    “生物信息学数据库资源”的文章,里面介绍了几个重要的数据库:NCBI、EBI、UCSC等,知道了需要分析的数据。
  2. SRA数据主要使用两种工具下载
  • Aspera connect参考:
    使用aspera下载.fastq.gz和.sra数据
    从NCBI-SRA和EBI-ENA数据库下载数据
    Ubuntu16.04下利用Aspera下载NCBI-SRA库基因数据
  • SRA Toolkit参考:
    生信软件 | Sratools (操作SRA文件)
    安装和使用SRA toolkit
    菜鸟自学之——SRA Toolkit 的下载和使用

1. NCBI-SRA和EBI-ENA数据库

—————————————————————————————————————————————
NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。
在NCBI的众多数据库中,有一项是专门保存高通量测序原始数据的,即SRA数据库( Sequence Read Archive)隶属NCBI,它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的,SRA数据库可以用于搜索和展示SRA项目数据,包括SRA主页和 Entrez system,由 NCBI 负责维护。SRA数据库中的数据分为Studies, Experiments, Samples和相应的Runs四个层次:

  1. Study:accession number 以 DRP,SRP,ERP开头,表示的是一个特定目的的研究课题,可以包含多个研究机构和研究类型等。study 包含了项目的所有 metadata,并有一个 NCBI和 EBI 共同承认的项目编号(universal project id),一个 study 可以包含多个实验(experiment)。
  2. Sample:accession number以 DRS,SRS,ERS 开头,表示的是样品信息。样本信息可以包括物种信息、菌株(品系)信息、家系信息、表型数据、临床数据,组织类型等。可以通过 Trace来查询。
  3. Experiment:accession number 以 DRX,SRX,ERX开头。表示一个实验记载的实验设计(Design),实验平台(Platform)和结果处理 (processing)三部分信息。实验是SRA 数据库的最基本单元,一个实验信息可以同时包含多个结果集(run)。
  4. Run:accession number 以DRR,SRR,ERR 开头。一个 Run 包括测序序列及质量数据。
  5. Submission:一个 study 的数据,可以分多次递交至 SRA 数据库。比如在一个项目启动前期,就可以把study,experiment 的数据递交上去,随着项目的进展,逐批递交 run 数据。study 等同于项目,submission等同于批次的概念。

与NCBI网站相对的是欧洲的EBI (European Bioinformatics Institute)数据库,其中的子数据库——ENA数据库European Nucleotide Archive功能同SRA,并且对数据做了注释,界面更友好,里面可以直接下载 .fastq (.gz)和 .sra文件。

两者在主要功能方面非常类似,同时数据互通。

2. SRA文件下载方式

——————————————————————————————————————————————
需要获取他人发表的公开测序数据,来帮助自己的研究领域,下载.sra文件是为了获取该sra相对应的fastq或者sam文件,通过文件格式转换就可以和自己的pipeline对接上,用于直接分析,所以:
第一步确定编号:我们需要到SRA或者ENA上搜索我们选择好的SRR号/SRS号/SRP号,先在ENA上搜索,如没有再去SRA上搜索,因为ENA下载比SRA快,还可以直接选择fastq格式的数据。
第二步下载数据:从数据库下载 SRA 数据有多种方法,如:用wget或curl等传统命令从 FTP 服务器上下载 sra 文件(警告:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!);用ascp命令下载 sra 文件;使用NCBI的sratoolkit 工具集中的prefetch、fastq-dump和sam-dump直接下载;另外biostar handbook中有一个wonderdump脚本也方便下载数据(目前未验证过)。本文主要介绍前两种方法。

3. Ubuntu命令行安装Aspera Connect软件

—————————————————————————————————————————————
Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。
Aspera官网:https://downloads.asperasoft.com/en/downloads/8?list

1.使用wget命令下载Aspera Connect

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

#wget 命令的用法参考:wget 下载整个网站,或者特定目录

2.使用tar命令解压

tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz

#tar命令的用法参考:tar命令的详细解释、linux 压缩 解压
#参数:z(gzip相关)x(解压缩)v(唠叨模式)f(后接文件名)

3. 使用bash命令安装

bash aspera-connect-3.7.4.147727-linux-64.sh

#bash命令的用法参考:Linux基本bash命令(持续更新)

4. 使用cd命令切换至安装目录

cd /home/name

#cd命令的用法参考:Linux命令总结–cd命令、Linux cd命令
#跳转到当前用户的家目录,也可以用~或者没有任何符号
#该软件默认安装在该文件夹。

5. 使用ls命令查看文件目录列表

ls -a .

#ls 命令的用法参考:linux命令详解之ls命令、ls命令详解
#显示所有的文件,包括隐藏文件(以.开头的文件)
#如果看到.aspera文件夹,代表安装成功。

6. 永久添加环境变量(比较复杂的过程,下次总结下)

echo 'export PATH=~/aspera/connect/bin:$PATH' >> ~/.bashrc

#echo命令的用法参考: Linux 命令(27)—— echo 命令
#export命令的用法参考:Linux 命令(49)—— export 命令(builtin)
#修改环境变量参考:Linux系统添加环境变量的方法

7. 使用source命令刷新环境,使文件配置立即生效

source ~/.bashrc

#source命令的用法参考:Linux下source命令详解、linux下的source命令
#也可以关掉当前的shell,重新启动。
#这个命令也还需要进一步的学习。

8. 检测软件运行情况

ascp --help

#查看帮助文档
#至此安装完成

4. Ubuntu命令行安装SRA Toolkit软件

Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合,一般常用于下载SRA文件、从SRA文件中提取fastq,sam文件,查看SRA文件信息等。
NCBI官网下载地址:
下载地址1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
下载地址2:https://github.com/ncbi/sra-tools/wiki/Downloads
官方介绍文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

1. 使用wget下载对应版本的SRA Toolkit

# Ubuntu Linux 64 bit architecture - non-sudo tar archive 
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz

2.使用tar命令解压缩文件

tar -zxvf sratoolkit.2.10.5-ubuntu64.tar.gz

3.对解压后的目录进行更名方便使用

mv sratoolkit.2.10.5-ubuntu64.tar.gz sratoolkit

4.如有需要可以将该软件移动到适当目录下

5.添加环境变量

针对服务器设置如下:

vi ~/.bashrc  #用vi/vim编辑器修改bashrc文件
i  #由command line进入insertion line
export PATH=$PATH:~/software/sratoolkit/bin
ESC, :wq  #退出vi编辑器并保存文件
source ~/.bashrc  #让配置生效

针对自己主机Linux系统设置如下:

vi ~/.bashrc  #用vi/vim编辑器修改bashrc文件
i  #由command line进入insertion line
export PATH=$PATH:/home/xiaomotong/software/sratoolkit/bin
ESC, :wq  #退出vi编辑器并保存文件
source ~/.bashrc  #让配置生效

参考:Linux 添加环境变量的五种方法

6.检测软件运行情况

prefetch -h
Usage:
  prefetch [options] <SRA accession | kart file> [...]
  Download SRA or dbGaP files and their dependencies

  prefetch [options] <SRA file> [...]
  Check SRA file for missed dependencies and download them

  prefetch --list <kart file> [...]
  List the content of a kart file

你可能感兴趣的:(RNA-seq学习笔记)