NCBI数据库以及常用编号

NCBI数据库

在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。

NR/NT数据库

NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。

NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在[下载地址][ftp://ftp.ncbi.nih.gov/blast/db]中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的,将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。

Taxonomy 数据库

NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止发稿日为止该数据库所包含的物种数目统计表如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x7Nymex0-1633523935616)(/Volumes/Flower0501/picture/基础知识/NCBI-Taxanomy数据库.png)]

Taxanomy的[下载地址][https://ftp.ncbi.nih.gov/pub/taxonomy ]

gi_taxid 标识的数据:NCBI早在2016年已经宣布逐渐停用,这部分信息不再关注

  1. taxcat 标识的数据:ncbi提供有不同格式的压缩包,解压后都只有一个categories.dmp文件。打开该文件,包含三列信息,三列代表的不同的分类层次:
  • categories.dmp

内容信息:

  • 第一列:代表分类的顶级类别(top-level category),字母分别代表不同分类名(古菌,细菌,真核生物,病毒和类病毒,未分类,其他) A = Archaea B = Bacteria E = Eukaryota V = Viruses and Viroids U = Unclassified O = Other
  • 第二列:相应的物种级别(species-level)的taxid
  • 第三列:taxid本身
  1. taxdump 标识的数据

同样提供不同格式的压缩包,解压后后包含7个文件:

  • citations.dmp:与某个物种(taxid表示)的文献信息,来源信息:

NCBI数据库以及常用编号_第1张图片

  • it_id :the unique id of citation-引用ID
  • cit_key:citation key-文献关键词
  • medline_id:unique id in MedLine database (0 if not in MedLine)-MedLine数据库中的唯一ID
  • pubmed_id:unique id in PubMed database (0 if not in PubMed)-PubMud数据库中的唯一ID
  • url:URL associated with citation-相关网站
  • text :any text (usually article name and authors)-通常包含文章名字与作者名字的文本信息
    • The following characters are escaped in this text by a backslash:
    • newline (appear as “\n”),
    • tab character ("\t"),
    • double quotes (’"’),
    • backslash character ("").
  • taxid_list:list of node ids separated by a single space-文章中所包含的分类节点信息
  • nodes.dmp:存储 taxid对应的多级节点信息

NCBI数据库以及常用编号_第2张图片

  • tax_id:the id of node associated with this name-节点taxaid
  • name_txt:name itself-分类名称
  • unique name:the unique variant of this name if name not unique-唯一名字
  • name class:(synonym, common name, …)-分类级别
  • nodes.dmp:存储 taxid对应的多级节点信息

在这里插入图片描述

  • tax_id:node id in GenBank taxonomy database
  • parent tax_id:parent node id in GenBank taxonomy database
  • rank:rank of this node (superkingdom, kingdom, …)
  • embl code:locus-name prefix; not unique
  • division id:see division.dmp file
  • inherited div flag (1 or 0): 1 if node inherits division from parent
  • genetic code id:see gencode.dmp file
  • inherited GC flag (1 or 0): if node inherits genetic code from parent
  • mitochondrial genetic code id: – see gencode.dmp file
  • inherited MGC flag (1 or 0): – 1 if node inherits mitochondrial gencode
  • GenBank hidden flag (1 or 0) : – 1 if name is suppressed in GenBank entry
  • hidden subtree root flag (1 or 0) : – 1 if this subtree has no sequence data yet
    comments:free-text comments and citations
  • delnodes.dmp:已经删除不用的节点信息

在这里插入图片描述

  • division.dmp

NCBI数据库以及常用编号_第3张图片

  • division id:taxonomy database division id
  • division cde:GenBank division code (three characters)
  • division name:e.g. BCT, PLN, VRT, MAM, PRI…
  • comments
  • gencode.dmp:密码子表信息

NCBI数据库以及常用编号_第4张图片

  • genetic code id:GenBank genetic code id
  • abbreviation:genetic code name abbreviation
  • name:genetic code name
  • cde:translation table for this genetic code
  • starts:start codons for this genetic code
  • merged.dmp:记录新taxid替换旧taxid的信息

NCBI数据库以及常用编号_第5张图片

  • old_tax_id:id of nodes which has been merged
  • new_tax_id:id of nodes which is result of merging

RefSeq数据库

RefSeq([the reference sequence database][https://www.ncbi.nlm.nih.gov/refseq/]).参考序列数据库,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意义上的非冗余基因,转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。

RefSeq记录有三种可以获得的状态:预测的、临时的和检查过的(reviewd)。

  • 预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区;
  • 临时的RefSeq记录还没有被检查过,它们是有自动的程序产生的;
  • 检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编,它们很多都来自于GenBank记录、人类基因组命名委员会和OMIM,RefSeq标准为人类基因组的功能注解提供一个基础。

RefSeq数据库和GenBank数据库的区别在于:GenBank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。

数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。

文章来源:
https://cloud.tencent.com/developer/article/1772376

你可能感兴趣的:(生信基础概念,数据库)