linux下使用Aspera Connect下载sra数据

参考链接:https://www.jianshu.com/p/680e8d720516

1. 下载Aspera Connect:在命令行输入如下命令

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

2. 解压:

tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz

3. 安装:

bash aspera-connect-3.7.4.147727-linux-64.sh

4. 查看是否有.aspera文件夹,去根目录,输入:ls -a #,若看到.aspera文件夹,代表安装成功

linux下使用Aspera Connect下载sra数据_第1张图片

5. 永久添加环境变量:

打开~/.bashrc文件,y用vi ~/.bashrc

输入i,切换成编辑命令

export PATH=~/.aspera/connect/bin:$PATH' 

Esc,回到命令行

:wq,保存退出

~/.bashrc, 让配置生效

6. 查看帮助文档,验证是否可以调用:

ascp --help

PS:我输入这个命令出现

所以我进行如下操作

linux下使用Aspera Connect下载sra数据_第2张图片

之后输入:.aspera/connect/bin/ascp --help 命令就能正常使用aspera工具。

根据 SRA 数据产生的特点,将 SRA 数据分为四类:

Studies-- 研究课题

Experiments-- 实验设计

Samples-- 样品信息

Runs-- 测序结果集

这四种分类有一个层次关系。首先是 Studies->Experiments->Samples->Runs。这也是一个研究

项目正常的逻辑关系。大家要了解这个层级关系, SRA 数据库用不同的前缀加以区分:

ERP 或 SRP 表示 Studies;

SRS 表示 Samples;

SRX 表示 Experiments;

SRR 表示 Runs。

下载工具准备好了,但是我使用的是我师兄的aspera工具,所以我的下载链接从他那边得到。下载步骤如下(由于服务器原因以下步骤的代码仅限于我本电脑使用,你们使用会出错的):

1. 从NCBI上面获得SRA序列号,在sra数据库输入关键词下载,序列号放在SraAccList.txt文件中下载下来

2. 根据脚本语言把SraAccList.txt里面的序列号转成aspera下载的地址链接,注意序列号要格式统一,每行一个序列号且没有空格转换命令:perl /share/home/cuiyong/perl_soft/sra2ftp.change.pl 文件名

3. 然后根据SraAccList.txt.sh.aspera里面的命令去下载,在linux控制台打开这个文件用less SraAccList.txt.sh.aspera,复制黏贴里面的命令到控制台可以直接下载(下载前去查看SRA文件是否存在,有可能序列号在但是没有文件夹,查看序列号文件夹网址ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR)。

 

你可能感兴趣的:(SRA)