如何在NCBI下载数据(包括批量下载)?

NCBI(National Center for Biotechnology Information)https://www.ncbi.nlm.nih.gov/

NCBI官方介绍是:

NCBI advances science and health by providing access to biochemical and genomic information.

对做系统发育的我们来说就是上传、下载以及分析自己分子数据的地方。

这里说下载数据

我们下载一般的核苷酸数据,在搜索框左面的All Databases中选择Nucleotide,然后在搜索框内编辑要查找的。


比如我们要下载禾本科的叶绿体基因组数据,我们可以输入:Poaceae chloroplat complete genome,点击Search之后,出来的结果可能并不都是叶绿体数据,我们在出现在左边的项目栏里点击特定的选项,这里我们点击Genetic compartments 下面的Chloroplast,网站会自动筛选出叶绿体数据。

我们随便点进去一个,就会出现下面的页面:

我们看到在确切信息Paspalum ionanthum chloroplast, complete genome下面有一个:

GeneBank:MG524002.1

这里的MG524002.1是这条基因序列在GeneBank中的编号(accession number)。GeneBank,顾名思义,就像一个基因银行,但和真正的银行不同的是,基因银行存储的基因序列是所有人共享的,可以自由上传和下载。上传的人可以更改这条序列的相关信息,但是编号是不变的。

那我们如何下载这条序列呢?

点击Send to右边的倒三角,按图中给出的提示选择,Format(格式)建议选择GenBank,然后点击Create File,就可以进行下载。

当我们下载多条序列时,我们也可以在上一个界面中,点击要下载的item(序列项目)前面的方括号,然后点击右上角Send to,同上面单条序列一样。

当我们有大量的序列需要下载(已经有这些序列的序列号accession number了),我们可以进行批量下载

批量下载有两种办法:

NCBI有官方的途径:Batch Entrezhttps://www.ncbi.nlm.nih.gov/sites/batchentrez

操作比较简单,首先我们准备一个含有accession number的.txt格式的文件,

然后在Batch Entrez界面上面的工具栏中,Database选择相对应的数据库,File选择我们准备好的.txt文件,然后点击Retrieve(检索),出现下面的页面,

点击最下面一行Retrieve records for...,然后进入这个页面,

不用选择items前面的方块,直接点击右上Send to,同之前的操作一样。

另外推荐一个好用的软件TBtools(批量下载只是TBtools其中很小的一个功能):

下载网址:https://github.com/CJ-Chen/TBtools-Manual

点击上图中绿色方框Clone or download,然后选择Download Zip

可以安装在windows系统,安装好打开,按图中的提示点击,

出现下面的界面以后,既可以在空白区域直接粘贴编号,也可以点击空白区右边的蓝色长方形上传包含编号的文件,在下面的Set Output File设置文件下载的路径。

你可能感兴趣的:(如何在NCBI下载数据(包括批量下载)?)