欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
编者按:我经常打比方说,生物数据挖掘探索这个过程很像是做菜,同样的食材,不同的厨师会做出不同的东西。但不管怎么样,巧妇也难为无米之炊,首先必须有食材(生物数据)。其实,一个完整的生物信息分析,约80%-90%的时间和工作量都是在做前期准备上,所以,正确下载合适的数据是非常重要的功能,那么从本次开始,我们将通过一系列的文章,详细介绍各种生物数据的下载工作,包括数据的查找,下载,校验,同步等等问题……
一、生物数据检索
下载生物数据最重要的工作,就是获得数据准备的下载地址,那么有了地址之后,就可以选择多种方式进行下载了。生物数据其实都是存在于世界某个地方的一台服务器中,首先需要获取服务器的地址,然后是数据在服务器中具体的路径,例如nr数据库:
#服务器IP地址为:
ftp://ftp.ncbi.nlm.nih.gov/
#文件在服务器中的路径为:
/blast/db/FASTA/nr.gz
#那么nr数据库的全部下载地址就为
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
有了这个地址之后就可以使用多种下载工具进行下载了。例如使用sftp工具,ftp工具,wget命令等等方法。所以,我们应该清楚生物数据的具体存储位置,这个就需要平时多总结,以及会使用搜索引擎进行搜索才行,因为生物数据分为多种格式,分布与世界各地,很多时候只能多去总结。下面我们介绍几个常用的生物数据库下载站点。
NCBI
NCBI自不必多说,这是生物信息领域第一大站点,应该也是生物数据存储最大的站点,里面搜集了来自全球科学工作者以及多个科研机构的生物数据,而且每天都在快速增长,很多时候单独从这里就能够下载到想要的数据了,例如NCBI可以下载常见物种的全基因组序列,不完整的基因组序列,基因集序列以及对应的氨基酸序列等,还包括测序的原始数据,以及各种常用的数据库。由于NCBI包含的内容比较多,因此需要能够了解NCBI数据的目录结构,需要的文件放在哪个目录下。
#官方网站:
https://www.ncbi.nlm.nih.gov
EBI
欧洲生物信息研究EBI,是与NCBI并列的另一大生物数据存储中心,是全球收集和传播生物数据、提供免费生物信息服务的欧洲节点。EBI也包含了多种类型的生物数据,其中很多是生物学家熟悉的数据库,例如ENA(核酸序列数据库),Ensembl(基因组),ArrayExpress(基因表达数据),UniProtKB蛋白质序列,InterPro(蛋白质家族/域/蛋白指纹等)和PDBe(大分子结构)等。
这其中最常用的则为EMBL,Ensembl条理清晰的列出了每个物种的各种相关数据,而且由于物种的拉丁名不容易识别,还人性化的给出了图片,这样可以快速找到需要的内容。更重要的一点是,Ensembl提供的基因组数据包括了标准的GTF文件,GTF是基因的转录本信息文件,是做RNAseq中必须使用到的文件格式,而NCBI只提供GFF格式文件,因此,做RNAseq需要到Ensembl下载对应的数据。
#官方网站:
https://www.ensembl.org
UCSC
UCSC是加利福尼亚大学圣克鲁兹分校,UCSC提供了一个基因组浏览器的网站,这个网站在生物信息领域比较有名,里面包含非常多重要的资源。包括很多重要物种的基因组资源。目前里面包含166多个数据集合。包括93个物种。可以在线浏览这些物种的基因组信息。当然也可以进行数据下载。
与NCBI和EBI不同的是,通过UCSC这个基因组浏览器,可以交互式的选择要下载的数据,U里面包含一个Table Browser,可以通过这个工具进行筛选。比如选取基因组中固定区域信息,例如只下载cds区域,tRNA区域等。
#官方网站:
http://genome.ucsc.edu/
其他
除了三大生物数据库网站,还有很多著名的生物数据存储站点,例如日本的DDBJ,国内的国家基因库,美国能源部的JGI等,有些物种的数据没有搜录近三大核酸数据库,而是单独存储在独立的站点,这就需要能够找到对应站点以及下载链接。
https://www.ddbj.nig.ac.jp/
https://www.cngb.org/
https://genome.jgi.doe.gov/
---------- END ----------