生物信息神奇网站系列(九):批量下载序列

在《手把手教你生信分析平台搭建专栏》中,我们介绍过利用Aspera快速下载生物数据,例如下载某个物种基因组数据。但是如果想下载来自多个物种的不同基因序列,例如给定一个基因列表list,如何下载到这些序列呢?这就需要用到Batchentrez。

九:批量下载序列Batchentrez

https://www.ncbi.nlm.nih.gov/sites/batchentrez

批量下载基因序列有多种方式,可以通过编程实现,也可以通过固定模块例如bioperl,biopython等。如果不会编程,batchentrez就是最好的选择了。Entrez是NCBI官方的数据检索系统,Batch Entrez显然就是批量检索。越到这种问题,真的有人一条条序列下载,这样不仅浪费时间,而且容易出错。(我以前就是手工一条条序列下载)

1、首先登陆网站,首次使用请注意阅读说明和注意事项。

生物信息神奇网站系列(九):批量下载序列_第1张图片

2、网站的使用其实并不难,首先选择要使用的数据库,然后点击选择上传ID文件,序列的ID可以是accession numbers或者identifiers。


生物信息神奇网站系列(九):批量下载序列_第2张图片

3、这里我们利用GI号,下载8个基因的序列,文件格式如图所示。

生物信息神奇网站系列(九):批量下载序列_第3张图片

4、数据库需要选择默认的,上传文件,点击Retrieve。

生物信息神奇网站系列(九):批量下载序列_第4张图片

5、batchentrez会检查文件中序列ID信息,并且会去除重复,返回检索结果,这里有5个检索不到序列。


生物信息神奇网站系列(九):批量下载序列_第5张图片

6、点击图中蓝色链接,链接到新的页面,选中要下载的序列,然后在Sent to中进行选择,包括输出文件内容和文件格式等。

生物信息神奇网站系列(九):批量下载序列_第6张图片

7、点击Create FIle,这样序列就下载好了。

生物信息神奇网站系列(九):批量下载序列_第7张图片

Tips:1,、注意输入文件格式,ID只能使用accession numbers or identifiers。

2、选择的数据库要和输入的序列ID相一致。

3、序列ID后面不要加空格,注意不同系统中换行符问题。

---------- END ----------

更多精彩内容欢迎订阅我们的微信公众号:基因学苑

你可能感兴趣的:(生物信息神奇网站系列(九):批量下载序列)