NCBI(美国国家生物技术信息中心)的资源架构

NCBI,The National(美国国家)Center for Biotechnology(生物技术) Information)旨在通过提供biomedical(生物医学)和genomic(基因组)信息供访问来推进科学和健康事业。这是网站首页正中的介绍,短短的一句话表明网站的资源包含两大部分,biomedical和genomic。

1. 中心的概括性介绍性部分

最先能看到的网站中的概括性介绍就是关于NCBI页面,点进去后可以看到。

1.1我们的使命

一般介绍

理解大自然静默而优雅的语言,生物细胞的语言,是现代分子(molecular)生物学的追求。从代表DNA的化学亚基(subunits)的4种字母,呈现出了生命的过程的语法,复杂至人。这些『字母』的解开和用来形成新『单字和短语』正是分子生物学领域的核心焦点。分子数据的惊人体量和它们神秘而微妙的模式(cryptic and subtle patterns),使得对计算机数据库(computerized databases)和计算机分析工具的需求成为必然。我们面临的挑战在于发现新的处理数据的量和复杂度的新方式,在于提供给研究者们分析和计算工具更好的访问性,以此来推动我们对基因的遗传(genetic legacy)的理解,对它在健康和疾病中起作用的理解。

创建NCBI

已故的Claude Pepper参议员认识到计算机信息处理方法对于生物医学研究开展的重要性,在1988年11月4日提案,建立National Center for Biotechnology Information(国家生物技术信息中心),作为在National Institutes of Health(国立卫生研究院)中的National Library of Medicine(国家医学图书馆)的一个部门。国家医学图书馆因为在创建和维护生物医学数据库方面的经验被选中,并且因为属于国立卫生研究院,可以在计算分子生物学领域建立一个院内研究计划。国立卫生研究院的研究部门集合在一起,构成了世界上最大的生物医学研究机构。

基础研究

作为提供分子生物信息的国家资源,NCBI的使命是,为更有助于理解控制健康和疾病的基础分子和遗传过程,而研发新的信息技术。更明确的说,国家生物技术信息中心负责:开发自动化系统,用来存储和分析各种知识,包括分子生物学、生物化学(biochemistry)和遗传学(genetics);促进这些数据库和软件被研究者和医学团体使用;开展基于计算机的信息处理高级方法的研究,来分析重要分子的生物学结构和功能。

为履行这些责任,国家生物技术信息中心:

使用数学和计算机方法在分子层面上开展基础生物医学问题的研究

和多个国立卫生研究院,学术界(academia),工业界(industry)和其他政府部门保持合作

通过举办学术会议、学术研讨和系列课程促进科学交流

通过美国国立卫生研究院研究计划(NIH Intramural Research Program),支持博士后研究生在计算生物学领域的基础和应用研究培训

通过科学访问计划(Scientific Visitors Program)聘请国际科学团体的成员开展信息研究和培训

为科学和医学团体开发、发布、支持和确保一致性的到多个数据库和软件的访问

研发和促进数据库标准、数据存储和交换以及生物学命名法(nomenclature)

1.2 组织架构

计算生物学分支(Computational Biology Branch)

在以下方面开展基础和应用研究:在分子生物学和基因学领域内的计算机学、数学和理论问题,包含基因组学、序列比较、序列搜索方法、高分子(macromolecular)结构、动态和交互,以及结果和功能预测。

简历协作的研究项目在计算分子生物学领域,包含生物学、化学、数学和计算机科学在国立卫生研究院院内实验室,其他的政府机构,学术界和工业界。

咨询和建议为了政府机构和研究实验室在计算机基础的分析工具的应用程序为了研究分子生物学

互动分子生物组织为了增强wet-bench,基于实验室的研究通过计算机学的应用和理论学习方法。

信息工程分支(Information Engineering Branch)

执行应用的研究在数据表达和分析,包含基于计算机系统存储、管理和知识获取和分子生物学、基因学以及生物化学

为表达分子生物信息的多种形式设计数据库结构和规格,包含核酸、蛋白质和机构信息。这些数据库都是国家资源

为从原型到操作层面设计和开发可发布的软件系统,使用本地和远程的计算服务提供研究

一致化公开的访问到序列、基因学、结构和参考数目,方法是构建策划和整合的数据库,尽可能的建立到外部数据库的连接。

建立合作的信息研究项目,和国立卫生研究院院内实验室一起,和其他院外的学术组织

咨询和建议其他的政府机构和研究实验室为了更好的软件和数据库设计高级方法

开发和提供标准为了数据库,数据交换和生物学命名

信息研究分支(Information Resources Branch)

计划、指导和管理技术操作,属于美国国家生物技术信息中心的,包含计算机系统用来研究和开发的,如同用来访问公开数据库的计算机系统

提供技术辅助给美国国家生物技术信息中心职员,提供支持给外部的用户属于美国国家生物技术信息中心网络服务

有监督的网络操作为了美国国家生物技术信息中心和配合其他的政府机构为国家和国际访问到美国国家生物技术信息中心

组织教学示范和讲习班为了生物医学的社区来培养美国国家生物技术信息中心信息服务的用户

计划、开发和管理政府协议和合作协议来促成设备和服务支持美国国家生物技术信息中心信息功能

联络员为用户支持服务到机构包含到全基因组项目

实施应用研究和研发,提供技术的咨询和指导,明确用户需求。开展调查来改进美国国家生物技术信息中心开发的软件的在生物用户社区的进展

协同其他政府机构和生物信息资源来促进数据资料库(repositories)在美国国家生物技术信息中心的开发。

1.3 计划和活动(Programs & Activities)

基础研究(Basic Research)

美国国家生物技术信息中心拥有一个多学科(multi-disciplinary)研究组织,该组织由计算机科学家,分子生物学家,数学家,生物化学家,研究医师和结构生物学家,聚焦到基础和应用研究在计算机分子生物学领域。这些研究者不仅做出了重大的贡献到基础科学,也提供了应用的研究行为的新方法的源泉。一起努力,他们研究基础的生物医学问题在分子层面上,使用数学和计算机方法。这些问题包括基因组织(gene organization),序列分析(sequence analysis)和结构预测(structure prediction)。一个例子,当前的研究项目包括:基因组织的发现和分析,重复序列模式,蛋白质结构域和结构要素,绘制人类基因组的基因地图,HIV感染的动力学(kinetics)数学模型,序列错误导致效果的分析提供数据库搜索,数据库搜索新算法的开发,多序列对齐,非冗余(non-redundant)序列数据库的构造,用于评估序列相似性统计学意义的数学模型,用于文本检索的向量模型。还有,美国国家生物技术信息中心研发者保持持续的合作和多个机构在国立卫生研究院,也和众多的学术和政府研究实验室。

数据库和软件(Databases and Software)

美国国家生物技术信息中心负责GenBank DNA 序列数据库在1992年10月。美国国家生物技术信息中心职工有着良好的训练在分子生物领域构造数据库为序列被独立实验室提供的,国际核苷酸(nucleotide)序列数据库,欧洲分子生物实验室(European Molecular Biology Laboratory (EMBL)),日本DNA数据库(DNA Database of Japan (DDBJ))提供的。和美国专利商标局安排,使得可以纳入专利的序列数据。

除了GenBank之外,美国国家生物技术信息中心支持和分发多个数据库为医学和科学社群。这些包括在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man (OMIM)),3D蛋白质结构的分子建模数据库(Molecular Modeling Database (MMDB)),唯一人类基因序列集(Unique Human Gene Sequence Collection (UniGene)),人类基因组的基因图谱(Gene Map of the Human Genome),分类浏览器(the Taxonomy Browser),癌症基因组解剖学项目(Cancer Genome Anatomy Project),和美国国家癌症研究所(National Cancer Institute)合作。

Entrez是国家生物技术信息中心的搜索和检索系统,提供用户完整的到序列,映射,分类和机构化的数据的访问。Entrez也提供序列和染色体映射的图像视图。Entrez的一个强大和独特的特性是检索相关的序列、结构和引用的能力。期刊文献(The journal literature)可以通过PubMed,网页搜索接口提供了访问到超过11百万期刊引文(journal citations)在MEDLINE中,包含到完整文本文章的链接到参与出版商的网站。

BLAST是程序为了在国家生物技术信息中心进行序列相似性检索开发的,是识别基因和遗传特征的工具。BLAST能针对整个DNA数据库在少于15秒钟内执行序列检索。附加软件工具被国家生物技术信息中心提供的包括:开放阅读框架查找器(Open Reading Frame Finder (ORF Finder)),电子模拟聚合酶链式反应(Electronic PCR),序列提交工具(sequence submission tools),Sequin 和 BankIt。所有国家生物技术信息中心的数据库和软件工具从WWW或者通过FTP可用。国家生物技术信息中心也有电子邮件服务器提供可选的方法来访问数据库,为了文字搜索或者序列相似的搜索。

推广和教育(Outreach and Education)

国家生物技术信息中心培养科学社区在计算机领域,如应用到分子生物学和基因学,通过赞助会议,研讨会和演讲集。科学访问计划已被安排来扶持院外科学家合作。博士后研究生学位可以作为国立医学研究所院内研究计划的内容。

1.4 国家生物技术信息中心计算生物学分支(NCBI Computational Biology Branch)

在国家生物技术信息中心计算生物学分支中的研究集中于理论、分析和应用计算方式到广泛的基础问题在分子生物和医学中。

研究概述(Research Overview)

研究计划在计算生物分支正在开展被高级研究员(Senior Investigators),终身研究员(tenure track Investigators),职业科学家(Staff Scientists),博士后研究生(Postdoctoral Fellows),学生们。计划聚焦在理论,分析和应用方式到广泛的基础问题在分子生物学中。

群组的专业知识集中于序列分析,蛋白质结构及功能分析,化学信息,基因组分析。研究兴趣更覆盖于广泛的主题在计算生物学和信息科学。这些包含,但是不限于数据库搜索算法,序列信号识别,演化的数学模型,病毒学统计学方法,化学反应系统的动态行为,统计学文本检索算法(statistical text-retrieval algorithms),蛋白质结构和功能预测,比较基因组学,分类树,人口遗传学,系统生物学。

很多基础研究项目被CBB研究员指导,目标增强和强化的国家生物技术信息中心的公开有效数据库和软件应用工具套装。合作研究努力,在国家生物技术信息中心研究员中,也在外部的研究团体中,目标是创新算法(BLAST, PSI-BLAST, VAST, and COGs)的开发,新的研究方法(相邻文本(text neighboring))和基础资源(PubChem and CDD)改造了计算生物学的领域。算法和应用在当前开发下有潜力到更加高级的科学研究。

CBB的成员显著的贡献到有效和可信赖的国家生物技术信息中心的在线资源,通过回顾数据库中的沉积的数据的质量和有效性,也有信息的精确性用来注释数据的。成员也通过规划和组织科学联盟来确定最有效地利用公共序列资源进行大规模(large-scale)或高通量(high-throughput)实验生物学的领导和指导给予到院外社群(extramural community)。研究合作定义新的研究领域和身份适当的计算机制来解决问题。

现在完成了概括性内容的了解,下面,对具体资源的内容进行梳理。

2. 首页面看到的其他内容

在首页,我们可以看到上面的标题栏、跟在后面的检索框,中间的主体内容,以及底部的很多链接堆。看了真让人混乱,到底应该从哪里地方进入呢?我迷茫了很久,因为即使是中间的主体内容,准确的说是主体内容的目录也够复杂的。所以只有一个一个先看看到底是个啥么,然后才能重新在头脑中建立起一个整体概念。而事实上,也只有从这里面才能建立一个整体概念,如果跳过这一步骤,直接进入后面的步骤,很容易就混乱,并持续混乱下去,所有,这一过程又是很重要的。

我们按照从左到右,再从上到下的顺序,依次考察链接后,得到如下的架构体系。先吐槽一下,为什么左上角会有两个logo?


好的,先看一个这个比原文更加混乱的表,我画的。不过至少到现在我们明白了一件事情,为什么NCBI要在首页上辣么多东东了,目的就是减少中间环节,你所要的所有东西,全部在页面上可以找到最佳的路径直接访问到。这样的好处不言而喻,坏处就是不够有条理,第一次看上去感觉痛苦的不行。

2.1 左上角

言归正传,左上角的两个菜单分别叫资源(Resources)和如何(How To),名字起得显而易见,特别注意的是,仔细看上图可知,在左侧的菜单栏中,也有资源这一超链接叫做所有的资源(All Resources),这两个其实是一样的,而唯一左上角菜单的资源菜单的作用在于,点击下拉三角图标后,可见子菜单,移动到菜单项上后,还可以看到二级子菜单。也就是说左上角的资源菜单可以直接到最底层项目,而左侧菜单只能到中间的层次。我不啰嗦,点击一下就可以知道了。内容都是一样的,这里我没有把菜单项的名称标记上中文的原因是,我忘记了:)等到截完屏做出来就不好再添加上去了,但其实这反倒是一件好事情,因为真正所有的资源,后面我们会大量涉及的主体信息其实就是这些内容。熟悉英文的名称比直接看翻译的有意义。

2.2 左侧

虽然后面会大量提到,但是还是有必要先把内容梳理一遍,这里面包括的内容从上到下来。主页就不说了,资源列表(Resource List)很有意思,是把所有的资源类,注意不是资源,的名称按照字母索引全部排列出来。当然我们看到表示完全无感,因为用的是英文首字母,而我们很多时候只知道中文是啥。我连查啥都不知道好不好。接下来的所有资源(All Resources)是把所有的资源类按照数据库(Databases)、下载(Downloads)、提交(Submissions)、工具(Tools)和如何做(How To)五个大类型全部进行分类。左侧列表中单个资源类的展现形式和这种展现形式是相同的,也是五个大类型。

这些单个的资源类分别是:化学和生物测定(Chemicals & Bioassays),数据和软件(Data & Software),脱氧核糖核酸和核糖核酸(DNA & RNA),域和结构(Domains & Structures),基因和表达(Genes & Expression),遗传和医学(Genetics & Medicine),基因组和图谱(Genomes & Maps),同源性(Homology),文献(Literature),蛋白质(Proteins),序列分析(Sequence Analysis),分类法(Taxonomy),培训和教程(Training & Tutorials),变异(Variation)。

需要特别提醒的是,这个单个资源类的分法,并不是绝对的把资源们分成各种相互隔离的类别,倒好像是提供了从各种角度把松散的资源组织到一起的办法,其目的是便于人一次性的找到自己所需要的相关性比较大的资源子类的集合。比方说一个卖水果的网店,它可以把货物分成甜水果,酸甜水果,皮厚水果,贵的水果四个资源类。西瓜资源可能既属于甜水果有属于皮厚水果的分类。

化学和生物测定(Chemicals & Bioassays)这里面包含的和化学有关的资源,生化生化,生物和化学从一开始就是分不开的。

数据和软件(Data & Software)无疑这一条应该排到第二,信息化的使用是依靠大量的数据库和数据检索技术基础之上的。这里面就从计算机信息化的角度提供了各种数据库和检索工具。

脱氧核糖核酸和核糖核酸(DNA & RNA)这里面包含了和DNA、RNA有关的所有资源容,这些都可以在这个分类里面找到,很多的。

域和结构(Domains & Structures)这里面包含了和结构相关的资源,比如蛋白质的结构组成。

基因和表达(Genes & Expression)基因通过某种方法表达出物种的各个形态,比如头发的颜色,翅膀的大小,这里面包含了基因和表达相关的所有资源,这里包含着几乎所有的内容。

遗传和医学(Genetics & Medicine)这里面包含了基因和疾病相互有关系的资源。

基因组和图谱(Genomes & Maps)这里面包含了基因组和图谱的资源,基因组是生物完整基因的组成形式,这里包含着几乎所有的内容。

同源性(Homology)基因组的变化是在遗传的不变性基础上进行的,所以可以追溯他们的源头,这里有这方面的资源。

文献(Literature)和文献有关的资源。

蛋白质(Proteins)蛋白质肯定比基因的层次要高,毕竟组成人体嘛,这里有蛋白质相关的资源。

序列分析(Sequence Analysis)这里面就一个流感病毒的数据库,加上一些通用的分类方法,不知道为什么叫这个名称。

分类法(Taxonomy)万物同源但是随着演化发生了很多的变化,所以要分成很多类型,这就是相关的资源。

培训和教程(Training & Tutorials)相关资源链接

变异(Variation)遗传总是有变异,这里是相关的资源。

这些分类其实并不是分类,而是某一类资源的归类。我相信这些内容必然是从实际出发,对用户和研究者来说都很有效果的。到此为止,内容已经全部提到,后面的内容无外乎是这些资源的细分或者是相关信息以及工具。目前不需要有太深入的了解,有个粗浅认识,为后面的深入探索,提供一个大脑中的印象。

2.3 中间部分

一般来说,但凡放到中间的,都是核心。全都如此,首页上在中间部分的除了欢迎词之外,下面的一排链接,在前面的第一章中已经有了详细翻译,不再赘述。重点是中间部分的水平中间部分六个块。其重要性和左侧列表的不同之处在于他们的功能性,也就是功能性最重要的六个块,六个功能吧。分别是提交(Submit),下载(Download),学习(Learn),开发(Develop),分析(Analyze)和研究(Reserch)。不管你想要用这个中心的资源来干什么,这里都提供,而最常用的就是这六种。我们分别介绍:

2.3.1 提交

存储数据或者草稿(manuscripts),这个草稿指的是未经同行评议(peer-reviewed)的发现,到国家生物信息中心数据库中。具体的种类包括:

核苷酸序列(Nucleotid Sequences)包括GenBank和Sequence Read Archive(SRA)两个数据库;

基因组变异(Genome Variations)包括单核苷酸多样性(SNP),变异数据库(dbVar),临床变异数据库(ClinVar),遗传检测注册表(Genetic Testing Resgistry(GTR));

实验研究和数据集(Experimental Studies & DataSets)包括基因表达综合库(符合微阵列实验最小信息(MIAME)格式)(Gene Expression Omnibus(GEO)),序列读档案(Sequence Read Archive(SRA)),基因型和表型数据库(dbGap(The Database of Genotypes and Phenotypes)),生化试验数据库(PubChem BioAssay)

生物研究项目数据(Biological Research Project Data)包括生物数据集合(BioProject)和生化试验原材料数据库(BioSample)

核苷酸和化学试剂(Nucleotide & Chemical Reagents)包括核酸试剂盒注册表(Probe)和样本描述数据库(PubChem Substance)

其他数据类型(Other Data Types)包含国立医学研究院草稿提交系统(NIH Manuscript Submission System(NIHMS))

选择相应种类后,可以提交数据,并且可以查到如何提交的向导文档。这部分可以发现很多内容还是相互重合的,有些和前面提到的内容也都相关。其实也简单啊,就是那几个关键的数据库嘛。

2.3.2 下载

介绍文字为:传输国家生物信息中心的数据到你的电脑上。

这里提供了三个主要部分的内容以及一些辅助链接文档

首先是FTP,可以从中打开文件夹,下图就是我电脑上打开的内容,速度有些慢,但是可以看到里面的大致构成。可以直接下载哦。


NCBI(美国国家生物技术信息中心)的资源架构_第1张图片

第二个内容就是Aspera。这本来是IBM公司的一个高速传输软件,使用了fasp传输技术。感觉使用了这个神器,就秒杀迅雷的感觉,达到只要担心你存储空间的大小的境界。

这个我安装了一个在电脑上,但是没用过,因为没机会用,空间已经满了。究其根本原因,因为最开始我比较傻,又没有老司机带路,使用了ftp往我的服务器上wget的时候,把我的磁盘空间都占满了。我用的是阿里云,值得夸赞的就是,我经常怀疑会传输到一半就完蛋,没想到吭哧吭哧的竟然把如此大的数据库文件都慢慢下载下载了,可见人家服务器的强健,和我阿里云的网络畅通。但是最后一个错误,怎么试都不行的时候。我才发现原来是硬盘占满了。


NCBI(美国国家生物技术信息中心)的资源架构_第2张图片

总之,总关系图中有一个截屏,可以看到这个软件把数据库文件目录组织的很好。顺便说这个软件已插件的方式起作用,打开网页就可以浏览和处理文件了。

第三个就是下载工具,特定在于定制能力强,可以定制某些数据集。

包括Entrez程序集(Entrez Programming Utilites(E-utilities)),SRA(Sequence Read Archive)工具包(SRA Toolkit)和GEO2R,最后这个怪名字工具的怪名字表示它是一个基于R语言的GEO数据库下载工具。GEO前面说过了,但是肯定无法容易一下子记住的名字,基因表达综合库(Gene Expression Omnibus):GEO是一个公开的基因组学(genomics)数据仓库(repository),它支持符合MIAME(微阵列实验最小信息)标准的数据提交。接受基于数组和序列的数据。这个工具帮助用户查询和下载实验和策划(curated)的基因表达谱(gene expression profiles)。还有这三个工具的相关文档。

链接就是如何下载定制的数据集合,大数据下载的最好方法,SRA下载参考。

2.3.3 学习

介绍文字为:找到有帮助的文档,参加课程或者观看教程。

学习嘛比较容易理解,包含了四个部分的内容,网络研讨会和网络课程(Webinars & Courses),会议和展示(Conferences & Presentations),教程(Tutorials)和文档(Documentation)。总关系图中有截图。

2.3.4 开发

介绍文字为:使用国家生物信息中心的API们和代码库来创建程序。

这里面呢有三个部分和一个外部链接。首先是APIs,懂得就懂,不懂的估计对这一段也不感兴趣了。简单介绍就是包括E-utilities、BLAST URL API 和化学文献强力用户网关(PUG(PubChem Power User Gateway))等的程序接口。简单说明一下就是这些东西都是写好的程序,你可以通过调用这些程序来获取一些数据,并且根据调用这些程序时的参数,来定制你想要的数据。上面的等这个字,其实就是生化文献中心(PubMed Central(PMC))APIs,可能是地方不够用了的缘故。

其次就是代码库(Code Libraries),用来维护国家生物信息中心数据的公开的软件库,就是很多软件啦。包括:

国家生物信息中心C++工具包,C++是一种强大的编程语言,这个工具包是一个应用程序的框架,既然是框架那就不简单是一些可调用的函数和类啦,是一个脚手架,可以趴在上面用各种函数操作数据库中的内容。

SRA 工具包,包含工具的可执行文件和源码,可以直接下载,这些工具主要是处理二代测序的结果,这些结果用国家生物信息中心SRA结构存储的,SRA是一种格式名称,如同word文档,就是用特定格式存储的文本文件,和txt的文本文件的类型是不一样的,必然强大了哦。

国家生物信息中心GitHub仓库(NCBI GitHub Repository),这个词要这样断,这是个在GitHub上面的仓库,里面放的国家生物信息中心的很多工具。GitHub是啥呢?是程序员们放自己写出来的代码的地方。放在那里有啥好处呢?就是可以做版本管理,每一次修改都给你存起来。如果使用免费的空间,那就必须要公开,谁都可以看和下载。有时候大牛看到了,可以拷贝一份帮你改一改,改过的你觉得太好了,就直接给大牛发一个「拉」请求,把大牛改的那个拷贝,拉过来覆盖你自己的版本。如果你使用私人的空间,或者公司用的,那就花钱租一个,公司的人自己用。总之,这是一个程序员扬名立万的地方。上面有很多好用的东西,Android的源码也在上面。

再次就是数据格式,由于各家的数据库使用不同的格式存储数据,那相互之间就无法自动读取,存储到另一个库中。所以为了统一标准,就规定了这些东西。

最后的链接就是GitHub,和前面的代码库中的重复。我表示始终对国家生物信息中心的分类之诡异佩服的很。最后还突然冒出来几个链接,开发视频教程,指导如何使用来开发使用E-UTILITIES的。

2.3.5 分析

介绍文字为:为你的数据分析任务选择一个国家生物信息中心工具。额。。。

里面可以看到,我们提供了好多好多的分析工具哦,你们都可以用来操作(manipulate),排列(align),可视化(visualize)和评估(evaluate)生物数据。

里面分了六个类:文献类、健康类、基因组类、基因类、蛋白质类和化学类。基因组、基因和蛋白质三个类的工具最多。

这里面的分析工具和前面的提到的很多内容还是重复的,也就是说,这里是提供了一个目录,把很多相关的内容收集到一起,便于你使用。

2.3.5 研究

介绍文字为:展示了国家生物信息中心的研究和协作项目。

额,此文前文完整翻译过,名为国家生物信息中心计算生物学分支(NCBI Computational Biology Branch)。再一次分类思想点赞,我已经晕了。

2.4 右侧

右侧上部分名为热门资源(Popular Resources),不言而喻,是最多被访问,最受欢迎的内容。

包含如下内容:生物医学文献(PubMed),书籍和文件(Bookshelf),自有的生物医学文献(PubMed Central),临床疗效信息(PubMed Health),匹配序列的工具(BLAST),序列的集合(Nucleotide),基因组信息(Genome),单核苷酸多样性数据库(SNP),基因信息(Gene),蛋白质序列集合(Protein)和化学数据库(PubChem)。

分别介绍如下:

生物医学文献(PubMed):PubMed包括来自MEDLINE,生命科学期刊和在线图书的超过2700万次的对生物医学文献的引用。 引文可能包括到(自有的生物医学文献)PubMed Central和出版商(publisher)网站的全文内容的链接。

书籍和文件(Bookshelf):提供到生命科学和医疗保健书籍和文件的免费的在线访问。搜索,阅读和探索。

自有的生物医学文献(PubMed Central):PubMedCentral®(PMC)是美国国立卫生研究院/国家医学图书馆(NIH / NLM)的生物医学和生命科学期刊文献的免费全文档案。

临床疗效信息(PubMed Health):临床有效性研究(Clinical effectiveness research )回答了医疗(medical)和保健(health care)中“什么有效”问题。感觉中文中,保健这个概念已经既污又low了。

匹配序列的工具(BLAST):多次出现了哦。发现生物(biological)序列(sequences)之间的匹配区域(regions of similarity)。 该程序将核苷酸(nucleotide)或蛋白质(protein)序列(sequences)与序列数据库(sequence databases)进行比较并计算统计学意义(statistical significance)。简单说就是你有一段自己的基因序列,来这里用这个工具查一下,哦,我和人类的基因序列是匹配的呢。当然也可以比较两个基因序列的相似性喽。

序列的集合(Nucleotide):核苷酸数据库是来自几个来源的序列集合,包括美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国家生物信息中心参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))和蛋白质数据银行(PDB(Protein Data Bank)),基因组(genome),基因(gene)和转录本序列数据(transcript sequence data),为生物医学研究和发现提供基础支持。这个库显然是最大的总和。

基因组信息(Genome):该资源组织基因组的信息,包括序列(sequences),图谱(maps),染色体(chromosomes),装配(assemblies)和注释(annotaions)。这里面有人类基因组(Human Genome),微生物基因组(Microbial Genomes),细胞器基因组(Organelle Genome),病毒基因组(Viral Genomes),原核生物参考和典型基因组(Prokaryotic reference genomes)。

单核苷酸多样性数据库(SNP):单核苷酸多态性(SNPs)数据库和包括插入/缺失(insertions/deletions),微卫星(microsatellites)和非多态性(non-polymorphic)变体(variants)的多个小规模(small-scale)变异(variations)

基因信息(Gene):基因整合来自广泛物种的信息。 记录可能包括命名法(nomenclature),参考序列(Reference Sequences)(RefSeqs),图谱(maps),途径(pathways),变异(variations),表型(phenotypes),以及全球范围的基因组、表型和基因座特异性的资源的链接。

蛋白质序列集合(Protein):该数据库是来自多个来源的序列集合,包括美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国家生物信息中心参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))中注释的编码区(coding regions)的翻译,以及注释的蛋白质数据库(annotated protein database )Swiss-Prot,蛋白质信息资源(PIR(Protein information resources)),蛋白质研究基金会(PRF(Protein Research Foundation)和蛋白质数据银行(PDB(Protein Data Bank))的记录。 蛋白质序列是生物结构和功能的基本决定因素。

生化信息库(PubChem):提供小分子生物活性(biological activities)的信息,由三个主要数据库Pcsubstance、Pccompound、和PCBioAssay,分别包含物质(substance)信息,化合物( compound)结构和生物学活性(BioActivity)数据。

回到右侧的内容,下面还有个提供了发布新闻和博客的链接(News & Blog),不赘述了。

2.5 底部

最后一个部分,我要介绍的是底部的所有内容。这一部分总的来说呢,应该是一个导航栏,就是告诉你目前处于整个站点的位置。但是实际上感觉又是一个所有元素的分类,提供给用户方便的访问。总之不管那么多主要有5个部分。

2.5.1 从这里开始(GETTING STARTED)

从这里开始,好吧,这里有5个内容:分别是教育(NCBI Education),帮助文档(NCBI Help Manual),手册(NCBI Handbook),训练和培训(Training & Tutorials)以及提交数据(Submit Data)。讲真哦,别人我不知道,反正如果我要是从这里开始的话,估计早就迷失了。

需要说的是第一个教育和第四个训练和培训和上文中间功能区的学习(Learn)重复,不做介绍。第五个内容提交数据和中间功能去的提交(Submit)重复。表示不理解。剩下的两个如字面意思。

2.5.2 资源(Resources)

哦,既然整个站点就是资源,欢迎词里面说的嘛。那么这显然是重中之重了,果不其然,我一看和左侧列表中完全重合。并不是,少了一个训练和教程(Training & Tutorials),目前你有三种可能一下子就进入到训练和培训页面,看国家生物信息中心是多么的希望训练和培训你哦。其他完全一样,也就是所有的资源了。

2.5.3 热门(Popular)

唉,这个部分和刚才提到的右侧部分的热门资源(Popular Resources)完全一致,真的完全一致。不解释。

2.5.4 特色(Featured)

恩,这个有趣了。由于前面的影响,我下意识的反应就是在寻找,到底这一部分和哪一个条目重合呢?事实上,并没有。没有想到吧,这一部分竟然几乎是新鲜的哦。为什么躲到这个犄角旮旯里呢?我又一次陷入了思考。

遗传检测注册表(Genetic Testing Registry(GTR))这里提供了一个提供者自愿提交遗传检测信息的地方。从里面可以看到。测试(Tests)通过搜索测试名称,疾病名称,表型(phenotypes),基因标记和名称(symbols and names),蛋白质名称,实验室名称,主管和位置。环境/表型(conditions/phenotypes)通过搜索疾病名称,特性(traits),药物(drugs),蛋白质(proteins)和分析(analytes)找到环境和表型。基因(Genes)通过搜索基因标记和名称,环境和表型来搜索基因。实验室(laboratories)通过搜索实验室名称,主管,职员,位置和服务,疾病名称和表型搜索实验室。基因评论(GeneReviews)这个很好的,是相关学科专家对基因的评论文章。中国有两家哦!一个是杭州的中翰金诺医学检验所,一个是江苏苏州的健路基因。额,奇怪的状况。

临床疗效信息(PubMed Health)向左看热门资源里面有这一条,上文中的右侧也有这条。不解释了。

美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database))前文多次提到这个数据库,这里第一次出现访问链接。介绍文字:美国国立卫生研究所遗传序列数据库,所有公开访问的DNA序列的注释的集合。这里的注释非常重要哦,一堆atcg,那可是完全看不懂天书了。同时,GenBank又是另一个库的一部分,这个库唤作国际核苷酸序列数据库(International Nucleotide Sequence Database),这个大库由几个库组成分别是:日本DNA数据银行(DDBJ),欧洲核苷酸序列档案(European Nucleotide Archive(ENA)),GenBank。这三个机构每天交换数据。可见霓虹国还是很强大的哦。下面介绍了一堆,如何访问,如何使用,保密和隐私之类。有几种方法可以从中获取数据:Entrez Nucleotide,BLAST,e-utilities,和直接看纯文本格式,多种方法各显神通,各有利弊。将来会详细介绍。总关系图中有几个截图可以看看。

参考序列数据库(Reference Sequences):一个全面的,整合的,非冗余的,注释良好的参考序列,包括基因组,转录物和蛋白质。关键在于参考这个词,那么多序列,哪个才是标准呢?这是个问题。简单来说,这里的序列,就是可以用来对照的。恩,对照了发现,我是一个人类。就这种感觉。

基因表达综合(Gene Expression Omnibus):支持符合微阵列实验最小信息(MIAME)标准的数据提交的公共功能基因组数据库。 接受基于数组和序列的数据。 提供工具来帮助用户查询和下载实验和策划基因表达谱。也就是说大家把测序的结果提交到这个里面来,为啥呢?因为这个数据库存储基因组数据这种大数据特别擅长,提交的方法简单还支持各种通用的注释,很重要的哦,用户可以查询下载研究感兴趣的基因表达谱。

图谱(Maps)图谱查看器,Entrez的一部分,提供了多样的基因组图谱和序列数据的浏览功能。这个用了就知道咋回事了。

人类基因组(Human Genome),不用说了,这是核心啊。里面有详细的单独的操作方法。可以下载,浏览,查看和学习。就整个资源来说,这里有些像新浪网站搞了一个小专题。就这样的感觉。顺便提一下人类基因组的版本是变化的哦,网站里面给出了两个版本GRCh37和GRCh38版本。表示看不懂,经过研究,原来是,以GRCh28为例,基因组参考联盟之人类基因组(38版)(GenomeReference Consorium human genome (build 38)),额,汗。

小家鼠(Mus musculus),不解释了,老鼠的基因组。历史上干死不少人类,现在又被人类干死不少,谁也灭不掉谁。

流感病毒资源(Influenza virus),无需解释了,流感是一种病毒,表吃抗生素,消炎药,那是杀菌的,对病毒没有卵用,附带宣传。

引物寻找器(rimer-BLAST),引物是一段核苷酸序列,可以在升温后DNA双链打开后,拼合到单链的特定位置上,用以后面降温时,确定DNA补齐双链状态的起始和结束位置。如此重复N次,就把特定区间的DNA复制了大量出来,如果用了荧光标记,那么这时就发出可见强度荧光。如果没有,不是你做错了,而是没有特定的DNA序列让你的引物去拼合。所以,有无荧光就成为被测的DNA有无特定序列的标识。就可以干很多事情了。这里就是如何设计一段用来检测特定dna序列的引物序列的程序。

序列阅读存档(Sequence Read Archive (SRA))这个里面存储序列数据。为什么要存到这里呢?因为它设计来存储二代测序技术测出来的原始序列数据的。除了原始序列数据外,SRA现在以参考序列中读取位置的形式存储对齐信息。也就是说我不用存每一个位的信息,我存储相对于参考也就是标准列的位置,这样来存储对齐信息。虽然实践方法不知道,不过显然会减少存储量。现在,sra数据库数量逐渐增加。里面列举了很多信息。

坦白说,看完这一段,发现这个特色下面的列表,虽然位置很偏,但是感觉用处都很大,很有研究价值,和它左右列表相比,完全不是一个档次的。

2.5.5 美国国家生物信息中心信息(NCBI INFORMATION)

这一部分有七个列表项目,但是我来分分钟解决。

美国国家生物信息中心概述(About NCBI),美国国家生物信息中心的研究(Research at NCBI)这两个看上去熟悉吧,就是前文中,中间部分的概述(About the NCBI),那么,美国国家生物信息中心的研究呢?不用担心,这其实是概述的一个子内容。一个是另一个的子内容,我真是醉了。

美国国家生物信息中心新闻和博客(NCBI News & Blog),很熟悉吧,就在页面上不远的地方。

唯一有一点价值的美国国家生物信息中心FTP站点(NCBI FTP Site),并没有任何新鲜事,就是中间部分的下载(Download)里面的FTP。

后面三个,我们用不了,不解释!

好了,到此为止,首页面上呈现的概略性内容就已经完全介绍完了,虽然说是概略性的内容,其实已经涉及到了主要的资源,以及利用资源的方法了。这就是整个美国国家生物技术信息中心的资源架构。

后面,我会择其重点资源,逐个研究。

补充一句,如果看完了,你还是不知道要到哪里去找你要的东西,就到页面的正上部位置,我们一直没有提到的地方,有个空白框,输入你想要的内容,当然如果你知道自己想要什么的话,点击Search,搜索即可。



欢迎程序界、医疗行业、生物信息学等各个领域的朋友们!

作者:任皓

手机和微信:18751891598

邮箱:[email protected]

你可能感兴趣的:(NCBI(美国国家生物技术信息中心)的资源架构)