RNA-seq从入门到自闭(数据下载)

使用TBtools,大家可以轻松从NCBI和ENA获得文件的下载地址。接下来就是下载SRA文件。



sra文件的下载方式有很多种,你可以用迅雷离线拖,百度离线下载,也可以用选择网页下载。
在这里我简单介绍上述方法外的三种下载方式。

1. wget下载

wget是linux下常用的下载方式,首先你需要安装linux。如果你是win10系统,把系统升级到最新版也能安装一个linux系统。具体安装方法可以参考下面的链接(不是最新攻略,参考就好)。希望大家都能从这一步开始装上linux子系统,因为未来介绍的命令行操作都只能在linux shell下实现。需要注意的是,安装linux子系统需要留出8G左右的空间,如果你的C盘不够大就只能自己想办法了。
https://zhuanlan.zhihu.com/p/62658094
之后还需要安装wsl-terminal。具体的安装方法参考这里。
https://github.com/mskyaxl/wsl-terminal/blob/master/README.zh_CN.md#%E5%B7%A5%E5%85%B7
安装好linux和wsl-terminal后,就能用wget下载数据了。这里以ENA的ftp地址为例。首先你需要新建一个文件夹(文件名最好有自己固定的风格,例如:SRA_Triticum_Aestivum_drought_2020-9)。命名不规范,以后改起来太麻烦。


之后右键打开wsl-terminal

你可以在这里输入你需要的命令了。注意这里没办法使用ctrl+v这类快捷键。

最好还是用右键复制+粘贴吧。

说回下载地址,从图中不难看出,所有的地址只有在00B和SRR51316AB上有差别,其中B这位数可以看作是AB的最后一位数,在数学上可以通过取余数获得。随手百度发现linux shell的取余数代码是:

$(($i % 10));

for语句同理也能搜到,

for i in `seq 56 79`; 
do
    j=$(( $i % 10 ));
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/00${j}/SRR51316${i};
done

当然你可以使用更加粗暴的语句:

wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/006/SRR5131656
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/007/SRR5131657
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/008/SRR5131658
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/009/SRR5131659
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/000/SRR5131660
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/001/SRR5131661
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/002/SRR5131662
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/003/SRR5131663
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/004/SRR5131664
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/005/SRR5131665
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/006/SRR5131666
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/007/SRR5131667
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/008/SRR5131668
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/009/SRR5131669
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/000/SRR5131670
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/001/SRR5131671
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/002/SRR5131672
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/003/SRR5131673
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/004/SRR5131674
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/005/SRR5131675
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/006/SRR5131676
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/007/SRR5131677
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/009/SRR5131679
wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/008/SRR5131678

怎么说呢,又不是不能用!



上一次程序员朋友看到我的代码就给我发了这张图,你们说是不是该跟他绝交了。按你胃,有不是不能用!反正能跑就行了。
最后贴一下wget参数一览

-A<后缀名>:指定要下载文件的后缀名,多个后缀名之间使用逗号进行分隔;
-b:进行后台的方式运行wget;
-B<连接地址>:设置参考的连接地址的基地地址;
-c:继续执行上次终端的任务;
-C<标志>:设置服务器数据块功能标志on为激活,off为关闭,默认值为on;
-d:调试模式运行指令;
-D<域名列表>:设置顺着的域名列表,域名之间用“,”分隔;
-e<指令>:作为文件“.wgetrc”中的一部分执行指定的指令;
-h:显示指令帮助信息;
-i<文件>:从指定文件获取要下载的URL地址;
-l<目录列表>:设置顺着的目录列表,多个目录用“,”分隔;
-L:仅顺着关联的连接;
-r:递归下载方式;
-nc:文件存在时,下载文件不覆盖原有文件;
-nv:下载时只显示更新和出错信息,不显示指令的详细执行过程;
-q:不显示指令执行过程;
-nh:不查询主机名称;
-v:显示详细执行过程;
-V:显示版本信息;
--passive-ftp:使用被动模式PASV连接FTP服务器;
--follow-ftp:从HTML文件中下载FTP连接文件。
来源:https://man.linuxde.net/wget

2. Aspera

TBtools里已经支持这一功能,并且从NCBI和ENA获得的地址中也包含了Aspera的地址。具体操作看这里
https://mp.weixin.qq.com/s/YYneVPb3V6Dq5WXiq2JYTQ
如果你对命令行的方式感兴趣,可以在linux下安装aspera。具体安装可以参考这篇文章
https://www.jianshu.com/p/44265b4ab0b2
因为aspera功能总出问题,本人的网络也被禁用了aspera下载需要的端口。所以就仅供参考吧。

3. XDM

其实有了地址,用浏览器下也好用迅雷下也好都是一样的。之前也有人推荐过IDM
https://www.internetdownloadmanager.cn/
是个收费软件,那么有没有更香的软件,最好是免费的?
有的!
https://subhra74.github.io/xdm/


安装好界面

点击加号添加文件

添加地址后点击开始

小结:本文简单介绍了下载sra文件的几种方式,同理,同样也可以用类似的方式下载fastq文件。最后,祝磕盐顺利。

你可能感兴趣的:(RNA-seq从入门到自闭(数据下载))