NCBI

NCBI

NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。

目前有将近40个在线的文库和分子生物学数据库,包括:PubMed, PubMed Central, and GenBank等。

网址: https://www.ncbi.nlm.nih.gov/

NCBI_第1张图片

采用Entrez搜索和信息检索系统,数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/

一、任务

  1. 为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;
  2. 从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;
  3. 促进生物学研究人员和医护人员应用数据库和软件;
  4. 努力协作以获取世界范围内的生物技术信息。

二、重要子库

GeneBank

GeneBank是NIH遗传序列数据库,集成了所有公开的可获得的已注释DNA序列。GeneBank收录的核酸序列数据根据其不同的研究属性,可分为Nucleitide、GSS(Genome Survey Sequcnce)、EST(Expressde Sequence Tag)三个子库。Nucleitide收录绝大多数常规的核酸序列;GSS收录测序起始阶段用来进行序列或基因示踪重复序列或基因数量预判等的各种短读长序列;EST收录cDNA和cDNA特征序列信息。GeneBank中的数据是由用户提交数据构成的,具有较高的冗余度和差别率,,为了更好的实现特征序列的查询,NCBI在GeneBank的基础上针对每个基因不同的数据类型提取一个可靠的注释条目作为参考条目,组成RefSeq数据库(Reference sequence,https://www.ncbi.nlm.nih.gov/RefSeq)。RefSeq的数据标识符类似于NM_000572.2,"NM_"表示特异的数据类型,“.2”表示更新版本。

NCBI_第2张图片

Gene

Gene数据库收录全部已测序物种的基因注释信息,包括基因的名称、染色体定位、基因序列和编码产物、基因功能和相关文献信息等,基因数据库是目前最权威的基因注解数据库。Gene数据库的标识符(Entrez gene ID )依据基因的发现顺序由1到多位数字组成。

Genome

Genome涉及的物种包含所有的生物领域:细菌、古细菌、真核生物以及许多病毒、噬菌体、类病毒、质粒和含有遗传物质的细胞器。选择人类基因组,可通过NCBI MAP viewer查看24条染色体的图谱、基因帝国为情况并获取该染色体全部或局部DNA 序列,孟德尔遗传相关,多态、同源基因、转录物等信息

遗传多态数据库

NCBI中的dbSNP、dbVar、dbGaP、和ClinVar四个子库涉及DNA多态性或变异信息。其中dbSNP收录了所有物种中发现的短序列多态和突变信息,包括单核苷酸多态性(SNP)、微卫星、InDel等定位、侧翼序列和功能、频率信息,收录的 SNP条目一般以“rs+数字”形式表示。dbVar主要收录较大规模的基因组变异,包括大片段的插入、缺失、易位、倒置和拷贝数变异(CNV)等信息资源。dbGaP主要收录大量以遗传多态为分子标记物的基因型和表型(疾病)关联性研究的数据。ClinVar收录临床中发现或报道的有证据支持的与人类疾病或健康状态有关的变异位点。

GEO(Gene Expression Omnibus)

接受和管理各研究机构提交的基因芯片或测序技术获得的不同生理、病理状态个体或细胞系基因表达数据。GEO中的数据类型包括:

  • GPL是特定的芯片或测序平台类型;
  • GSM 参加基因表达测序的样本或个体信息
  • GSE 是一组相关样本实验测定的基因表达数据谱
  • GDS 由GEO数据库维护团队综合多组实验产生的整合的表达数据集,并含有预处理得到的聚类、差异表达等数据分析信息。

蛋白质数据库

NCBI Protein数据库收录来源于GenPept、RefSeq、Swiss-Prot、PIR、PRF和PDB等蛋白质数据

1.文献数据库

​ 包括:PubMed,PubMed Central,Books等

2.序列资源库

​ 包括人,小鼠,果蝇,线虫等各种物种的基因组数据库

​ 包含DNA,RNA,蛋白等各种类型的数据

​ 如:SNP,GEO,SRA等

3.常用序列分析工具

  • Entrez -- 数据挖掘的工文本条件查询工具(Text Term Searching) 来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和文献信息检索 网址:https://www.ncbi.nlm.nih.gov/gquery/

  • BLAST -- 序列比对工具 https://blast.ncbi.nlm.nih.gov/Blast.cgi

4.数据下载与上传

​ 数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/

​ 上传的工具有:Sequin,tbl2asn等,链接地址:https://www.ncbi.nlm.nih.gov/guide/data-software/

5.其他合作项目

​ 我们比较常用的就是检索文献,检索序列,比对序列。

​ 了解更多内容可以参考官网手册:https://www.ncbi.nlm.nih.gov/books/NBK143764/

参考资料

https://baike.baidu.com/item/NCBI/3598184?fr=aladdin

https://www.ncbi.nlm.nih.gov/books/NBK143764/

你可能感兴趣的:(NCBI)