aspera: 如何快速下载测序原始数据(raw data)

作者:木同、毛毛

更多精彩内容请 微-信 搜索 “生信学社” 公·众·号,点击关·注。回复“ngs201207”,获取该文所用到的文件、代码、高清图片等内容。


如何快速学会芯片或高通量分析的流程呢?实践!拿一套原始数据,从头开始认真的学习一遍。从原始数据出发,一步步探索,由浅入深,由表及里是非常有必要的。这样不仅能在学习的过程中掌握较多的生信知识,还可以深入理解测序数据分析并对此有一个全面的认识。

对于处在金字塔底层的我们,在刚迈入测序数据分析领域时,大多数人手里都没有原始测序数据。但这不影响我们对测序数据分析的学习与热爱。鉴于各种数据库和一批伟(you)大(qian)人的存在,我们可以轻松的获取丰富的原始测序数据。例如:GEO数据库中大量的测序数据,有芯片数据,有二代数据。

然而,原始数据动辄以G为单位,让人望而生畏。再加上蜗牛般的网速,没俩星期都不好意思把这些数据收入囊中。但是,这不能阻挡我们好好学习天天向上的热情,如何快速的下载到这些测序数据的原始数据呢?

毛毛说:如果下载有段位:
塑料:网页直接下载,陷入漫长的等待,随时面临下载失败的结局,下载完成却发现解压失败,文件不完整。或者不情愿的买个迅雷VIP,然后就觉得被坑了。
白银: wget -c,此命令使用者基本上对Linux系统有一定的了解,该命令在大多数的时候都是很好的一个下载工具。
面对不同的网站、网络、文件选择适当的下载方式才是真正的老司机。

今天在这里给大家安利一个超NB的钻石段位下载神器 —— aspera,对于动辄几十上百G的测序数据,此工具尤其适用于ftp文件下载。Aspera是IBM的高速文件传输软件,具有远距离高速传输大数据的优点。用了都说好。接下来我们通过一个例子让大家快速学会使用aspera快速下载原始测序数据。


STEP 1: 下载 & 安装


aspera linux 最新版下载链接
aspera linux 旧版下载链接

#https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09ff1/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz 
#下载aspera工具(36M,耗时约40s):
wget -c https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09ff1/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz 
tar -zxvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz #解压

#安装aspera,直接在软件所在目录运行.sh文件
bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
#Installing IBM Aspera Connect

#Deploying IBM Aspera Connect (/home/gaoh/.aspera/connect) for the current user only.
#Unable to register protocol handler, IBM Aspera Connect won't be able to auto-launch
#Unable to update desktop database, IBM Aspera Connect may not be able to auto-launch

#Install complete.

#显示以上说明安装成功。安装的位置为“/home/tong/.aspera/connect”
#添加路径,使得在当前账户任何目录下运行此工具
vi ~/.bashrc
export PATH="$PATH:/home/tong/.aspera/connect/bin"
#保存退出后(Esc,Ctrl+:,wq)更新:
source ~/.bashrc
#运行:
ascp
#Usage: ascp [OPTION] SRC... DEST
#          SRC to DEST, or multiple SRC to DEST dir
#          SRC, DEST format: [[user@]host:]PATH
#Display full usage: -h,--help
#显示以上内容表示安装成功


原始测序数据存放在哪里?

我们常用的测序原始数据一般存放在NCBI下的GEO(https://www.ncbi.nlm.nih.gov/gds)数据库和EMBL下的EBI(https://www.ebi.ac.uk/)数据库。

这两个数据库中的原始测序数据均可以使用aspera下载。注意:由于NCBI下的原始测序数据与2020年迁移至云上,以前ftp站点下存放原始数据的“/sra/sra-instant/”目录已经被移除,导致现在不能直接使用aspera进行下载。当然,我们还是可以通过其他方法从NCBI快速下载原始数据。所以当你再看到网上关于使用aspera从NCBI下载原始数据下载命令中包含[email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/的教程,请毫不犹豫的跳过。

为了方便起见,建议大家从EMBL-EBI数据库下载原始数据。EMBL-EBI还专门提供了使用aspera下载数据的教程How do I download data using Aspera?,有兴趣的同学可以学习一下。

本教程将以从EMBL-EBI数据库下载文件为例,为大家展示下载过程。


STEP 2: 以GSE102741为例下载文件


2.1、查找文件

在阅读文献时,我们经常会看到测序数据可以从GSE*****获取的描述。此ID为GEO数据库中某一数据集的唯一标识码,因此我们可以GEO数据库中获得该数据集的描述。例如GSE102741:

打开GSE102741,我们可以看到该数据为Illumina HiSeq 2000 (Homo sapiens)平台自闭症脑RNA-seq数据,共52个样本。如果目标数据集提供了原始数据,则你可以在网页底部看到有“Raw data are available in SRA”标注。点击SRA Run Selector可以看到该数据集的具体文件和具体信息,见Fig. 1B。我们可以看到该数据是基于Illumina HiSeq 2000平台的转录组双端测序数据,上传日期为2017年,测序组织来源为脑组织,所有52个样本共392Gb, Fig. 1C。如此大量的数据很难想象使用一般的下载方法需要多久才能下载完毕。

aspera: 如何快速下载测序原始数据(raw data)_第1张图片
Figure 1

如何在EMBL-EBI数据库中找到该数据呢?我们需要该研究项目的唯一标识码或SRA ID,即Fig.1B中BioProject: PRJNA398545,SRA: SRP115571

接下来我们打开EMBL-EBI数据库,按Fig. 2操作找到需要下载的文件:点击Services,在搜索框中输入“ENA”,在搜索结果中打开ENA数据库。在搜索框中输入前文提到的PRJNA398545SRP115571 编码,点击View均可查到该数据集。或直接打开(https://www.ebi.ac.uk/ena/browser/home)网址,直接进入数据搜索页。

aspera: 如何快速下载测序原始数据(raw data)_第2张图片
Figure 2

同样,我们可以看到关于该数据集的描述,见Fig. 3A。接下来我们需要下载关于该数据集的tsv格式的Download report文件,以供批量下载使用。在下载之前我们点开“Show Column Selection”,在下拉框中勾选fastq_aspera和sra_aspera,这样在下载的tsv文件中就会包含两列下载地址信息, Fig. 3B-D。此数据库提供两种格式的原始文件下载,分别为fastq格式和sra格式,我们推荐大家下载fastq格式以供下游直接分析,这样就可以省去将sra格式转换为fastq格式的步骤。

aspera: 如何快速下载测序原始数据(raw data)_第3张图片
Figure 3

2.2、文件处理

我们打开上一步下载的tsv文件(filereport_read_run_PRJNA398545_tsv.txt),可以看到这个文件里有该数据集中所有文件的信息,尤其是原始数据在服务器中的地址。进一步处理该文件fastq_ftp、sra_ftp两列,为下一步批量下载做准备。

#获得所有样本的fastq格式文件下载地址
awk 'NR == 1 {next} {print $8}' filereport_read_run_PRJNA398545_tsv.txt | awk -F ";" '{print $1}' | sed 's/uk/uk:/g'> fastq_1.txt
awk 'NR == 1 {next} {print $8}' filereport_read_run_PRJNA398545_tsv.txt | awk -F ";" '{print $2}' | sed 's/uk/uk:/g'> fastq_2.txt
#获取所有样本的sra格式文件的下载地址
awk 'NR == 1 {next} {print $9}' filereport_read_run_PRJNA398545_tsv.txt | sed 's/uk/uk:/g' > sra.txt

STEP 3: 下载


3.1 仅下载一个文件

#以SRR5938419样本为例,单独下载一个文件
#运行以下命令,将fastq格式文件下载到当前目录
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR593/009/SRR5938419/SRR5938419_1.fastq.gz ./
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR593/009/SRR5938419/SRR5938419_2.fastq.gz ./

#该数据集为双端测序,一个样本有两个fastq文件。
#若下载sra格式文件,每个样本只有1个sra文件,只需将下载地址替换:
ascp -k 2 -QT -l 1000m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/srr/SRR593/009/SRR5938419 ./

ascp 参数说明:
-k: 断点续传,一般设置为1
-v: 实时查看程序运行步骤
-Q: for adaptive flow control) – needed for disk throttling
-T: 不进行加密,若不添加此参数可能会下载不了
-i: string 输入私钥,安装aspera后在目录~/.aspera/connect/ect/下有私钥,linux服务器一般使用 asperaweb_id_dsa.openssh
-l: string 设置最大传输速度,如设置为200M表示最大传输速度为200M/s。不设置则一般可达10M/s
-P: 提供SSH port,一般是33001
--host=string: ftp的host名,NCBI为ftp-private.ncbi.nlm.nih.gov;EBI为fasp.sra.ebi.ac.uk
--user=stri: ng用户名,NCBI为anonftp,EBI为era-fasp
--mode=string: 选择模式,上传为send,下载为recv

3.1 批量下载

如何批量下载该数据集全部数据呢?我们利用提取的数据下载地址文件fastq_1.txt生成该文件中所有样本的下载命令的脚本

perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' fastq_1.txt > fastq_1.sh
sh fastq_1.sh #批量下载fastq_1

同样的,对fastq_2.txt文件执行以上操作,获取fastq2文件的批量下载脚本。对sra.txt文件执行以上操作,获取sra格式文件批量下载脚本。

perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' fastq_2.txt > fastq_2.sh
sh fastq_2.sh #批量下载fastq_2
perl -ne 'chomp;print "ascp -k 2 -QT -l 1000m -P33001 -i \$HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp\@$_ ./\n" ' sra.txt > sra.sh
sh sra.sh #批量下载sra文件

总结


原始测序数据文件一般较大,通常是几到十几G不等。使用aspera工具能显著提升数据的下载速度,毛毛实测过程中有时下载峰值可以到达70Mb/s,网速快慢会影响下载速度。无论怎样该工具的下载速度仍旧是网页直接下载等下载方式望尘莫及的。
(id:ngs201207)


****禁止转载****

****搜索微信GZH:“生信学社”或扫码关注,回复“ngs201207”,获取该文所用到的文件、代码、高清图片等内容****

aspera: 如何快速下载测序原始数据(raw data)_第4张图片
image

你可能感兴趣的:(aspera: 如何快速下载测序原始数据(raw data))