基因ID类型

基因ID类型

常见基因ID类型包含Gene ID,Gene Symbol,Ensembl ID,RefSeq Accesion Number等。

Gene ID(Entrez Gene ID):来源于Entrez 基因数据库的编号系统,Entrez 基因数据库归属于NCBI的子数据库,整合了核酸、蛋白、基因组等生物信息检索系统。Gene ID也是目前最权威的基因ID编号,格式为一串数字,以CDKN1A基因为例,可以通过NCBI网站中Gene去进行搜索,检索如下,紧跟着CDKN1A那栏标注了Gene ID:1026。


在Gene界面,我们可以看到该信息的Summary,包含Officical Symbol,Official Full Name,Primary source等,另外我们还可以看到其Ensembl number,如CDKN1A,Ensembl:ENSG00000124762 MIM:116899。该基因是否属于蛋白编码基因,这里我们可以看到CDKN1A的Gene type属于protein coding;RefSeq status为Reviewed(人工审核);Organism:Homo sapiens;Lineage:细胞系来源;以及不同的基因Symbol叫法。该基因的概述等。


Gene symbol:刚才我们介绍了NCBI中Gene页面,我们在Summary的第一栏显示的是Official Symbol,就是我们通常所说的Gene symbol。物种来源于人的,由HGNC(人类基因命名委员会)命名,同理小鼠来源的由MGNC命名,大鼠来源的由RGNC命名。第二栏中的Official Full Name也是由基因命名委员会批准的基因名称。

Ensembl ID:我们可以在NCBI Gene中可以查询到,另外就是Ensembl主页中检索。其命名规则包含五个部分,ENS前缀,提醒我们该命名来源于Ensembl ID,第二部分物种的前缀,第三部分Object type,G就是基因,P指蛋白,我们通过我们的示例,Ensembl:ENSG00000124762 MIM:116899,可以看出该Ensembl ID是个基因名称,第四部分,identifier,是一段特定的数字,第五部分,版本号。如果没有物种的前缀,则默认物种是人。但是注明的是这五个部分不一定都具备的。

RefSeq Accesion Number:即RefSeq ID,其数据库也是由NCBI 提供的具有生物意义的非冗余的基因或蛋白质片段数据库。在NCBI Gene搜索下,我们可以看到RefSeq 状态,包括MODEL,INFERRED,PREDICTED,REVIEWED,VALIDATED等状态,我们示例显示的就是REVIEWED,表明该数据人工审核过,可信度还是比较高的。

这里就简单对基因常见类型ID进行概述,咱们下期再见。

你可能感兴趣的:(基因ID类型)