生信log12|"Dataset"-NCBI批量下载基因组数据新工具尝鲜&测评

写在前言，虽然笔主真的很喜欢几行命令行就能解决很多重复劳动，但本人还是被傻瓜式软件吃得死死的，哎真香。在此介绍一下 NCBI官网自己新出的一个批量下载物种基因组信息的网页和其命令行软件，以供萌新参考。

另NCBI其实出了很多工具是能用于批量作业的，如批量下载蛋白序列，不用太多编程的知识，小白如果能够善用NCBI的工具，初接触生物信息学时也能事半功倍，对NCBI的工具不少生信大佬也出过不少教程的文章

NCBI datasets入口

新工具看点

网页可浏览并下载对应基因组信息
NCBI新工具提供了命令行，能一行命令下载所有所需信息

NCBI datasets 网站一览

datasets 浏览基因组

教程部分

网页下载

到这篇文章发出来的时候，页面工具已经完善了好多

最新版页面工具
搜索某个种群，能得到现存网站上所有该个物种的基因组数量

以下载红杆菌科为例

这个页面已经不是这样的了

现在的搜索页面

可以搜索某个物种，直接下载整个类的物种信息点browse and download genomes直接跳转到下面这个网页

网页下载

assemblies_download 老方法

datasets 网页下载

终端命令行下载软件和安装

需要到官网下载dataset的二进制文件：一个是dataset（这个才是下载我们序列最重要的文件），另外一个是dataformat使用来转换json的数据到表格数据（不是最重要）

二进制文件下载

MacOS命令下载（curl）

curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/datasets'
curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/dataformat'

命令行组成：dataset download genome taxon taxon_number
安装：需要用chmod命令赋予权限，（mac用户直接把二进制文件拖进终端即可，linux的有界面的也可以这么做，windows同理）

chmod +x /your_dir/dataset

查看怎么使用：

命令行的基本使用

# 仅下载核苷酸序列的命令，命令太长了
datasets download genome taxon taxon_number \
--filename species_name.zip --exclude-gff3 --exclude-protein \
--exclude-rna

python API下载

笔主python水平有限，而且linux的命令更加简洁（我喜欢），迟点探索了再另开一篇分享。

下载的结果

命令行下载结果

没错，如果没有选择特定下载文件的话，它会帮你把所有基因组相关信息都下载下来，包括核苷酸序列

datasets_results1.png

dataset_result2.png

检查数据的完整度⚠️这步很重要

由于网络的问题下载下来的数据不一定是全的，有些文件夹可能是空的；
用网页的工具，可能仅下载当前页面的数据；

处理方法：先打开文件夹，看总共有多少个文件

网页版datasets的下载结果

download assemblies的结果

命令行统计路径下的文件数量：

ls -lh|wc -l

评价&&坑点

openssL的证书不新，会导致命令行下载不成功（一直报错），dataset这款软件似乎会默认指向系统中curl用的openssl（当时出错的截屏没了，莫得记录）。

解决办法就是升级系统内的anaconda，让anaconda的版本变成最高级，或者export 最新的openssL路径到终端

无法断点下载，网速不好的下到最后被卡了可能要重头下载，另外一点网速好好的话有些文件夹里面是空的下载不全，浏览器可能还能帮你接一接，这个好像是ncbi的通病；

除了找个稳定的网络以外也没有太多的办法了，或者在校有条件的申请国外的服务器

下载下来的数据是一个物种一个文件包，在linux服务器上真的不太方便整理。
只能下载基因组的数据，其他核苷酸序列无法下载。

参考

NCBI command line quickstart的官网手册

某乎地址：
某乎上附有操作视频，还请多多支持！

写得贼累，各位看官路过赏个素质三连呗～

生信log12|"Dataset"-NCBI批量下载基因组数据新工具尝鲜&测评｜MacOS