如何下载NCBI refseq?

NCBI是个宝藏网站,内含大量基因组。但NCBI对我们降速,对下载体验着实是个大障碍,时不时处于崩溃中~

现总结下NCBI下载基因组数据的方式,以备后续查看使用:

1. NCBI页面下载

image.png

最简单、最便捷。适合单个基因组下载。

从搜索栏搜索想要的基因组,根据页面导向下载Genbank、FASTA等格式的基因组。但非常卡顿,要看NCBI心情。

2. Filezilla 下载

打开站点管理器,建立新站点。
协议: FTP-文件传输协议;
主机:ftp.ncbi.nlm.nih.gov 或者ftp.ncbi.nih.gov;
端口: 空着或者填写"21";
登录类型:“ 匿名”或者英文版选择“Anonymous”;
首次建立选“确定”即可保存,然后点“连接”,再次使用直接点“连接”。

image.png

数据库丰富,可点击查看NCBI多种多样的库,点击各个库即可下载不同的数据集。但下载前需要知道所需基因组处于什么路径下才不至于迷失于不同的数据目录中。

缺点:下载大文件时有时800M的文件给你下载成801M,然后文件解压缩提示文件非常规压缩方式,多次尝试均如此,崩溃~~

image.png

3. 使用命令下载

Linux下载基因组数据,可以使用wgetrsync两大神器命令。

wget 使用示例:
wget -c -t 100 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/007/125/GCF_000007125.1_ASM712v1/*.gz
or
wget -c -t 100 ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/007/125/GCF_000007125.1_ASM712v1/*.gz

rsync命令原来用的很少,准确说是一个快速、多功能的远程(和本地)文件拷贝工具。详细记录下

rsync --copy-links --recursive rsync://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/007/125/GCF_000007125.1_ASM712v1/*.gz .

**不要忘记最后的点号。初学者常犯的错误。
**
下载时NCBI会提示


image.png

rsync常用参数
--copy-links 拷贝链接对应的文件或者目录而非链接本身(对于NCBI数据库很适用,比如Refseq数据库的数据其实是链接回genome/all数据库的)
--recursive -r 递归目录(有时候下载的是整个文件夹,可使用这个参数
--progress 表示在同步的过程中可以看到同步的过程状态,比如统计要同步的文件数量、 同步的文件传输速度等。
--partial 保持部分传输的文件
--P 相当于 --partial --progress
--exclude=PATTERN 排除规则PATTERN。指定同步需要过滤掉的文件或子目录(即不需要同步过去的),后面直接跟不需要同步的单个文件或子目录(不需要跟路径),可以是通配符模式(如\ *.txt)。过滤多个文件或子目录,就使用多个--exclude
--exclude-from=FILE 从文件中读取排除规则。指定同步需要过滤掉的文件或子目录,后面跟文件(比如/root/exclude.txt),不需要同步的文件和子目录放到/root/exclude.txt下。
--include=PATTERN 不要排除指定规则的文件
--include-from=FILE 从文件中读取包含的规则
--files-from=FILE 从文件中读取文件列表
--delete 删除 DEST 中 SRC 没有的文件

你可能感兴趣的:(如何下载NCBI refseq?)