关于 数据库 的 “ID”

常用数据库 ID

序号 ID 示例 ID 来源
GLA, GLB, UGT1A1 HGNC Gene Symbol(基因的官方名称)
ENSG00000116717 Ensemble ID(NCBI给予不同基因的一个代号(标识符))即Ensembl数据库的ID编号
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL,entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717v Entrez ID, NCBI
uc001ett, uc031tla.1 UCSCID 编号

一、Gene Symbol & Gene Name

(一)Gene Symbol

Gene Symbol 是基因的官方的名称,是对基因进行命名描述的一个缩写标识符(如:TP53),Gene Symbol 是由专门的数据库HGNC database of human gene names(人类基因命名委员会)来对人类中大多数基因的进行命名,并由组织HUGO进行维护。目前,HGNC已经批准了超过41500个Gene Symbol ,其中超过19190个基因属于蛋白质编码基因,超过 7300个基因属于非编码RNA的基因,同时HGNC还为假基因以及基因组特征命名。这些基因符号都是唯一的。

(二)Gene Name

Gene Name:Gene Name是经过HGNC批准的全基因名称;与Gene Symbol对应。Gene Symbol相当于Gene Name的缩写。例如TP53对应的Gene Name就是:tumor protein p53 。

!因为HGNC只对人类基因进行命名,而且并不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene数据库中的Official symbol就会变成Gene Symbol,并且Gene Symbol的编号会变成LOC前缀+Entrez ID,例如:LOC4333818


二、Ensembl IDs

(一)、组成

Ensembl ID的由5部分构成: ENS(species)(object type)(identifier).(version)

(species) (object type) (identifier) . (version)
不同物种的前缀 数据所指的类型 再加上一系列的数字. 有的时候可以有不同的版本, 再加上小数点 再加版本号

Enseml ID数据所指的类型包括exon(外显子), protein family(蛋白质家族),, gene(基因),, gene tree(基因树), protein(蛋白质), regulatory feature( 调控特征)和 transcript(转录本).

(二)、解读

如:ENSMUSG00000017167.6

① ENS代表这是一个Ensembl ID
② 第二部分代表物种, 如MUS代表小鼠(如果物种是人则不用填),常用物种见下表,其他物种的前缀可以点击这里查找
③紧接着的第三部分代表ID的类型, 如G代表基因, T代表转录本……
④是一系列的特殊数字
⑥ 小数点 .
⑦ 小数点后代表版本号

所以这个是一个Ensembl ID (ENS), 物种为小鼠(MUS), 代表一个基因(G), 并且这是第6个版本(.6).

常用物种前缀

前缀 学名
ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSXET Xenopus tropicalis (Xenopus)

其他物种的前缀可以点击这里查找

ID类型前缀

前缀 类型
E exon (外显子)
FM Ensembl protein family(合蛋白家族)
G gene(基因)
GT gene tree(基因树)
P protein(蛋白质)
R regulatory feature
T transcript(转录本)

三、UniProtKB/Swiss-Prot &UniProtKB/TrEMBL

(一)UniProt (蛋白质序列数据库)

UniProt是Universal Protein 的缩写,是一个一级蛋白质序列数据库。
Uniprot包括UniProtKB知识库、UniParc归档库和UniRef参考序列集三部分,整合了三大数据库(Swiss-Prot,TrEMBL和PIR-PSD)的数据,是目前国际上最广泛使用的蛋白质数据库.其中Swiss-ProtTrEMBL是核心数据库UniProtKB的两个子库,两个子库相似,区别如下

Swiss-Prot子库 TrEMBL子库
整理 序列条目以及相关信息都经过手工注释和人工审阅 所有序列条目由计算机程序根据一定规则进行自动注释
团队 瑞士生物信息研究所团队负责 欧洲生物信息学研究所团队负责
内容 蛋白质序列数据的搜集、整理、分析、注释,力图为用户提供高质量的蛋白质序列和丰富的注释信息。 蛋白质名、基因名、物种名、分类学地位等基本信息,功能、表达、定位、家族和结构域等注释信息,以及与其它数据库的交叉链接。
比较 可靠性大(手工注释、人工审阅) 可靠性比Swiss-Prot小(自动注释)

!两者联系
①采用统一的数据库格式和登录号系统(UniProt 中录入的数据都被分配了一个唯一的 entry name)
②TrEMBL中的序列经手工注释和人工审阅后,归并到Swiss-Prot子库中,不再在TrEMBL子库中保留。
③这两个子库的数据量差别很大,TrEMBL的数据数量远远超过了Swiss-Prot。

(二)关于两个字库UniProtKB/Swiss-Prot 的 “entry name”

由于UniprotKB的entry name有两种命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names

两种命名方式的对比
Swiss-Prot “entry name” TrEMBL “entry name”
描述 最多 11 位包含大写字母的字符串 最多 16 位包含大写字母的字符串
形式 X_Y X_Y
X 最多五个便于记忆的蛋白质编号① 6 到 10 个字符组成的登录号(accession number②)
“-” “-” 是下划线 “-” 是下划线
Y 最多五个便于记忆的物种编号③ 最多五个便于记忆的物种编号 (由于数据太多,TrEMBL启用了“虚拟编码”④来对物种进行分类,以数字9为前缀)
例子 PURQ_ZYMMO INS_HUMAN A5PJB2_BOVIN,

①蛋白质编号示例

Code(X) Recommended protein name Gene name
B2MG Beta-2-microglobulin B2M
HBA Hemoglobin subunit alpha HBA1
INS Insulin INS
CAD17 Cadherin-17 CDH17

②Accession Number
Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律有三种类型如下:

类型 1 2 3 4 5 6 7 8 9 10 例子
[O /P /Q] [0-9] [A-Z/ 0-9] [A-Z /0-9] [A-Z/ 0-9] [0-9] P12345
[A-N /R-Z] [0-9] [A-Z] [A-Z/ 0-9] [A-Z /0-9] [0-9] A2BC19
[A-N/ R-Z] [0-9] [A-Z] [A-Z/ 0-9] [A-Z/ 0-9] [0-9] [A-Z] [A-Z 0-9] [A-Z /0-9] [0-9] A0A022YWF9

如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.
③物种编号

Code Species
BOVIN Bovine
CHICK Chicken
ECOLI Escherichia coli
HORSE Horse
HUMAN Homo sapiens
MAIZE Maize (Zea mays)
MOUSE Mouse
PEA Garden pea (Pisum sativum)
PIG Pig
RABIT Rabbit
RAT Rat
SHEEP Sheep
SOYBN Soybean (Glycine max)
TOBAC Common tobacco (Nicotina tabacum)
WHEAT Wheat (Triticum aestivum)
YEAST Baker’s yeast (Saccharomyces cerevisiae)

④虚拟的物种编码

Mnemomnic code Taxonomic identifier Scope
9BACT 2 Bacteria
9CNID 6073 Cnidaria
9FUNG 4751 Fungi
9REOV 10880 Reoviridae

(三)Entry name与Accession Number的关系和区别

①提交数据到UniprotKB之后,每个数据都会被分配一个唯一的Accession Number(AC号)。如果为了减少数据冗余,将UniprotKB中的多个数据合并成一个,AC号仍保持不变。
Entry name也是每个数据唯一具有的标识符,它可以展示数据的生物学信息,但并不稳定存在的,比如说我们要将TrEMBL中的数据转入Swiss-Prot,那么我们需要变更数据的Entry name,此时同一个数据的Entry name就发生了改变,但是它的AC号仍然保持不变。这就是他们之间的区别!
③还有需要注意的是,一个数据可能有两个或者多个accession number
原因主要有两个:
a.当合并两个或多个数据条目时,保留所有数据条目的登录号。第一个AC编号称为“主要AC编号”,其他编号称为“次要AC编号”。编号排序是按字母数字顺序排列的。
b.如果现有数据条目被分割为两个或多个数据条目(“拆分”),新的“主要”登录号将归属于所有分裂的条目,而所有原始登录号将保留为“次要”登录号。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次级登录号均为P29358 。
所以,UniprotKB建议,我们最好使用数据的主登录号作为数据引用的方式(不是Entry name ,也不是二级登录号),因为主登录号是唯一并且稳定存在的数据标识符。

四、NCBI

(一)关于NCBI 的 GenBank & RefSeq

①NCBI(National Center for Biotechnology information)即美国国家生物技术信息中心是一个机构组织,而不是数据库,该中心的任务是:为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学研究人员和医护人员应用数据库和软件;努力协作以获取世界范围内的生物技术信息
②GenBank是NCBI建立的DNA序列数据库
③ RefSeq即参考序列。NCBI的RefSeq 数据库(美国国立生物技术信息中心参考序列库) 是一个参考序列的非冗余集合,数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。RefSeq 数据库是目前世界上最具有权威性的序列数据库,也是目前最可信赖的人类基因mRNA序列数据库
④RefSeq和genbank的数据的区别?
a. genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。
b.RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高

(一)关于 GenBank 和 RefSeq 的 Accession Number

①GenBank Accession Number**

GenBank Accession numbers命名的规则是:

类别 规则
Nucleotide 1个字母+5个数字 2个字母+6位数字
Protein 3个字母+5位数字
WGS 4个字母+2位数字+WGS的版本+6-8位数字
MGA 5个字母+7位数字
②RefSeq Accession Number

RefSeq 有一套特殊的 Accesion Number.一般的命名格式:
前缀为两个字母+下横线('_')+ 6 个或更多的数字
NCBI RefSeq命名格式的详细说明

例子
Accession Molecule Method 说明
AC_123456 Genomic Mixed 基因组序列,主要是病毒、原核生物。
AP_123456 Protein Mixed 蛋白序列,AP_原本只用于细菌的蛋白。
NC_123456 Genomic Mixed 全基因组序列,包括细胞器的、质粒等
NG_123456、NM_123456 Genomic Mixed 不完整的基因组序列,
NM_123456789 、NP_123456 mRNA Mixed 成熟的mRNA
NP_123456789 Protein Mixed 全长蛋白序列。但也有可能包括非全长的蛋白或成熟的多肽序列。
NR_123456 RNA Mixed 不编码的RNA,假基因或其它
Accession 前缀
Accession 前缀 类型 说明
AC_ Genomic Complete genomic molecule, usually alternate assembly (完整的基因组分子,通常交替组装)
NC_ Genomic Complete genomic molecule, usually reference assembly(完整的基因组分子,通常参考组装)
NG_ Genomic Incomplete genomic region(基因组区域不完整)
NT_ Genomic Contig or scaffold, clone-based or WGS(重叠群或支架,基于克隆或WGS)
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence(环境顺序)
NZ_ Genomic Unfinished WGS (未定义的WGS)
NM_ mRNA
NR_ RNA
XM_ mRNA Predicted model (预测模型)
XR_ RNA Predicted model(预测模型)
AP_ Protein Annotated on AC_ alternate assembly(在AC_备用装配上标注)
NP_ Protein Associated with an NM_ or NC_ accession(与NM_或NC_加入相关)
YP_ Protein
XP_ Protein Predicted model, associated with an XM_ accession(与XM_加入相关的预测模型)
ZP_ Protein Predicted model, annotated on NZ_ genomic records (预测模型,已在NZ_基因组记录中注释)
  • WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.

五、Entrez ID

GeneID即Entrez Gene ID(是NCBI中用来连接各个不同数据库统一的基因标志符)**
Entrez是归属于NCBI的一个综合的文本检索引擎系统。这个检索引擎整合了PubMed数据库的生物医学文献与其他39个文献和分子数据库(例如GEO,Entrez Gene等,这些数据库基本涵盖了DNA和蛋白质序列,结构,基因,基因组,遗传变异和基因表达方面的数据)。NCBI组织建立了Entrez,Entrez整合了各大数据库的入口,便于进行数据库检索。通常所说的检索NCBI数据库,其实就是在检索Entrez这个引擎系统所整合的生信数据库。
由于Entrez 作为一个综合性检索引擎,为了方便,其对不同的 Gene 进行了编号, 即 Entrez Gene ID. 并且由于 Entrez ID 相对稳定,也被众多其他数据库, 如 KEGG 等. 一串数字的Entrez Gene ID 不但具有很高的辨识度,而且在ID转化中占据着重要的地位。生信菜鸟团的博客《NCBI的基因entrezID相关文件介绍》讲解了Entrez ID主要的信息文件。

gene_id symbol chromosome
352937 dio2 20

表中geneid即为 Entrezid. 在ID转换中有重要的作用。

六、UCSC ID

UCSC ID 由小写字母和数字构成,
起 uc+三位数字+三位小写字母+小数点+数字构成版本号如:uc010qfk.3, uc010qfk.3.
! UCSC ID几乎被抛弃不用了,只是因为UCSC是三大数据库之一而已。

补:tax_id代表物种的id, 如人类是9606

生信技能树:超精华生信ID总结,想踏入生信大门的你-值得拥有
常用数据库ID表示方式
UniProt数据库参考学习连接1(作者:thinkando)
NCBI参考序列(RefSeq)常见问题回答
NCBI RefSeq命名格式的详细说明
DDBJ/EMBL/GenBank Accession的命名规则

你可能感兴趣的:(关于 数据库 的 “ID”)