转自:http://www.plob.org/2012/07/31/3013.html
做基因组数据分析,可能经常从NCBI的GEO/SRA或者EBI的ENA数据库下载高通量的数据,动辄几十G的数据用wget下载实在太纠结,这时就要用到神器-Aspera了。
使用Aspera,最简单的方法当然就是使用浏览器插件Aspera Connect了,跟迅雷、Flashget的用法差不多,直接单击Aspera支持的下载地址,就自动切换到Aspera的窗口开始下载了。
当我们登录到自己的服务器终端里面的时候,可能更希望在终端里直接下载数据,而不是先把数据下载到自己的硬盘里,再上传到服务器,这种情况下带有窗口界面的Aspera Connect就无法使用了吗?
当然可以,Aspera Connect安装包里内置了Aspera的命令行工具,这里对其安装和使用方法简要介绍一下:
首先,到aspera网站下载你的操作系统对应的aspera connect。(如果选Linux,下载以后会是一个几M大,内嵌二进制代码的shell脚本。。) 。不需要root或者sudo权限,直接安装之:
$ sh aspera-connect-2.4.7.37118-linux-64.sh
安装好以后,会在HOME目录下新建一个叫.aspera的目录,有两个文件比较重要:
一个是ascp的可执行文件:
~/.aspera/connect/bin/ascp
另一个ascp的密钥文件:
~/.aspera/connect/etc/asperaweb_id_dsa.putty
建议将密钥备份到HOME目录下方便使用:
$ cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
或者是.putty结尾的文件(试下吧 哪个能下用哪个)
再把aspera-license复制到系统目录
~/.aspera/connect/etc$ sudo cp aspera-license /usr/local/bin/
再把ascp可执行文件的路径加入PATH变量中,或者将其拷贝到当前目录。
执行以下两条命令(注意最后要加点号“.”,表示当前目录)
从EBI下载:
$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff
从NCBI下载:
$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/sra/sra-instant/reads/ByRun/litesra/SRR/SRR096/SRR096072/SRR096072.lite.sra .
这个时候的速度相比于wget,应该已经很快了,大约能达到9Mb/s以上,如果还嫌慢,可以在-i 参数的前面添加几项设置,像这样:
ascp -QT -l 100M -i ~/asperaweb_id_dsa.openssh [email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff
这样可以将速度提高到20Mb/s左右,偶尔能达到100Mb/s。
以EBI上的SRR346368这套数据为例。首先到EBI页面里,找到你想要下载的文件,将指针移到这个文件的”ftp”这一列,即可看到其ftp地址,例如: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz,
然后呢:将 ftp://ftp.sra.ebi.ac.uk 换成 [email protected]即可:
$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz .
NCBI的SRA数据库也是同样的方法,即可获取其ascp下载地址。
如果嫌每次都输入密码太麻烦,可以在命令行或.profile中设置ASPERA_SCP_PASS这个环境变量:
export ASPERA_SCP_PASS=你的aspera密码
即可。
请参见官方的SRA下载手册:
NCBI: http://www.ncbi.nlm.nih.gov/books/NBK47540/
EBI: http://www.ebi.ac.uk/ena/about/sra_data_download
附上自己下载数据的小心得,我本来打算从GEO下载数据,但是下载下来的都是SRA格式的,于是直接去EBI下载fastq的数据,虽然前者解压以后就能得到fastq文件,但是后者能剩下一些步骤,原来的wget在服务器上下载的速度最多1m/s,采用aspera以后直接飙升到9.7m/s,效果很是不错,还有如果apresa没有安装好的话就要进行下载,就会提示相关文件找不到(一般是要输入密匙,这个明显是多余的,因为原来就有密匙文件,建议把密匙文件保存在用户目录asperaweb_id_dsa.openssh,我的是这个文件哦),其他没什么了,祝好运