常用数据库 ID
序号 | ID 示例 | ID 来源 |
---|---|---|
一 | GLA, GLB, UGT1A1 | HGNC Gene Symbol(基因的官方名称) |
二 | ENSG00000116717 | Ensemble ID(NCBI给予不同基因的一个代号(标识符))即Ensembl数据库的ID编号 |
三 | GA45A_HUMAN | UniProtKB/Swiss-Prot, entry name |
三 | A5PJB2_BOVIN | UniProtKB/TrEMBL,entry name |
三 | A2BC19, P12345, A0A022YWF9 | UniProt, accession number |
四 | U12345, AF123456 | GenBank, NCBI, accession number |
四 | NT_123456, NM_123456, NP_123456 | RefSeq, NCBI, accession number |
五 | 10598, 717v | Entrez ID, NCBI |
六 | uc001ett, uc031tla.1 | UCSCID 编号 |
一、Gene Symbol & Gene Name
(一)Gene Symbol
Gene Symbol 是基因的官方的名称,是对基因进行命名描述的一个缩写标识符(如:TP53),Gene Symbol 是由专门的数据库HGNC database of human gene names(人类基因命名委员会)来对人类中大多数基因的进行命名,并由组织HUGO进行维护。目前,HGNC已经批准了超过41500个Gene Symbol ,其中超过19190个基因属于蛋白质编码基因,超过 7300个基因属于非编码RNA的基因,同时HGNC还为假基因以及基因组特征命名。这些基因符号都是唯一的。
(二)Gene Name
Gene Name:Gene Name是经过HGNC批准的全基因名称;与Gene Symbol对应。Gene Symbol相当于Gene Name的缩写。例如TP53对应的Gene Name就是:tumor protein p53 。
!因为HGNC只对人类基因进行命名,而且并不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene数据库中的Official symbol就会变成Gene Symbol,并且Gene Symbol的编号会变成LOC前缀+Entrez ID,例如:LOC4333818
二、Ensembl IDs
(一)、组成
Ensembl ID的由5部分构成: ENS(species)(object type)(identifier).(version)
(species) | (object type) | (identifier) | . | (version) |
---|---|---|---|---|
不同物种的前缀 | 数据所指的类型 | 再加上一系列的数字. 有的时候可以有不同的版本, | 再加上小数点 | 再加版本号 |
Enseml ID数据所指的类型包括exon(外显子), protein family(蛋白质家族),, gene(基因),, gene tree(基因树), protein(蛋白质), regulatory feature( 调控特征)和 transcript(转录本).
(二)、解读
如:ENSMUSG00000017167.6
① ENS代表这是一个Ensembl ID
② 第二部分代表物种, 如MUS代表小鼠(如果物种是人则不用填),常用物种见下表,其他物种的前缀可以点击这里查找
③紧接着的第三部分代表ID的类型, 如G代表基因, T代表转录本……
④是一系列的特殊数字
⑥ 小数点 .
⑦ 小数点后代表版本号
所以这个是一个Ensembl ID (ENS), 物种为小鼠(MUS), 代表一个基因(G), 并且这是第6个版本(.6).
常用物种前缀
前缀 | 学名 |
---|---|
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
其他物种的前缀可以点击这里查找
ID类型前缀
前缀 | 类型 |
---|---|
E | exon (外显子) |
FM | Ensembl protein family(合蛋白家族) |
G | gene(基因) |
GT | gene tree(基因树) |
P | protein(蛋白质) |
R | regulatory feature |
T | transcript(转录本) |
三、UniProtKB/Swiss-Prot &UniProtKB/TrEMBL
(一)UniProt (蛋白质序列数据库)
UniProt是Universal Protein 的缩写,是一个一级蛋白质序列数据库。
Uniprot包括UniProtKB知识库、UniParc归档库和UniRef参考序列集三部分,整合了三大数据库(Swiss-Prot,TrEMBL和PIR-PSD)的数据,是目前国际上最广泛使用的蛋白质数据库.其中Swiss-Prot和TrEMBL是核心数据库UniProtKB的两个子库,两个子库相似,区别如下
Swiss-Prot子库 | TrEMBL子库 | |
---|---|---|
整理 | 序列条目以及相关信息都经过手工注释和人工审阅 | 所有序列条目由计算机程序根据一定规则进行自动注释 |
团队 | 瑞士生物信息研究所团队负责 | 欧洲生物信息学研究所团队负责 |
内容 | 蛋白质序列数据的搜集、整理、分析、注释,力图为用户提供高质量的蛋白质序列和丰富的注释信息。 | 蛋白质名、基因名、物种名、分类学地位等基本信息,功能、表达、定位、家族和结构域等注释信息,以及与其它数据库的交叉链接。 |
比较 | 可靠性大(手工注释、人工审阅) | 可靠性比Swiss-Prot小(自动注释) |
!两者联系
①采用统一的数据库格式和登录号系统(UniProt 中录入的数据都被分配了一个唯一的 entry name)
②TrEMBL中的序列经手工注释和人工审阅后,归并到Swiss-Prot子库中,不再在TrEMBL子库中保留。
③这两个子库的数据量差别很大,TrEMBL的数据数量远远超过了Swiss-Prot。
(二)关于两个字库UniProtKB/Swiss-Prot 的 “entry name”
由于UniprotKB的entry name有两种命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names
两种命名方式的对比
Swiss-Prot “entry name” | TrEMBL “entry name” | |
---|---|---|
描述 | 最多 11 位包含大写字母的字符串 | 最多 16 位包含大写字母的字符串 |
形式 | X_Y | X_Y |
X | 最多五个便于记忆的蛋白质编号① | 6 到 10 个字符组成的登录号(accession number②) |
“-” | “-” 是下划线 | “-” 是下划线 |
Y | 最多五个便于记忆的物种编号③ | 最多五个便于记忆的物种编号 (由于数据太多,TrEMBL启用了“虚拟编码”④来对物种进行分类,以数字9为前缀) |
例子 | PURQ_ZYMMO INS_HUMAN | A5PJB2_BOVIN, |
①蛋白质编号示例
Code(X) | Recommended protein name | Gene name |
---|---|---|
B2MG | Beta-2-microglobulin | B2M |
HBA | Hemoglobin subunit alpha | HBA1 |
INS | Insulin | INS |
CAD17 | Cadherin-17 | CDH17 |
②Accession Number
Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律有三种类型如下:
类型 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 例子 |
---|---|---|---|---|---|---|---|---|---|---|---|
Ⅰ | [O /P /Q] | [0-9] | [A-Z/ 0-9] | [A-Z /0-9] | [A-Z/ 0-9] | [0-9] | P12345 | ||||
Ⅱ | [A-N /R-Z] | [0-9] | [A-Z] | [A-Z/ 0-9] | [A-Z /0-9] | [0-9] | A2BC19 | ||||
Ⅲ | [A-N/ R-Z] | [0-9] | [A-Z] | [A-Z/ 0-9] | [A-Z/ 0-9] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z /0-9] | [0-9] | A0A022YWF9 |
如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.
③物种编号
Code | Species |
---|---|
BOVIN | Bovine |
CHICK | Chicken |
ECOLI | Escherichia coli |
HORSE | Horse |
HUMAN | Homo sapiens |
MAIZE | Maize (Zea mays) |
MOUSE | Mouse |
PEA | Garden pea (Pisum sativum) |
PIG | Pig |
RABIT | Rabbit |
RAT | Rat |
SHEEP | Sheep |
SOYBN | Soybean (Glycine max) |
TOBAC | Common tobacco (Nicotina tabacum) |
WHEAT | Wheat (Triticum aestivum) |
YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
④虚拟的物种编码
Mnemomnic code | Taxonomic identifier | Scope |
---|---|---|
9BACT | 2 | Bacteria |
9CNID | 6073 | Cnidaria |
9FUNG | 4751 | Fungi |
9REOV | 10880 | Reoviridae |
(三)Entry name与Accession Number的关系和区别
①提交数据到UniprotKB之后,每个数据都会被分配一个唯一的Accession Number(AC号)。如果为了减少数据冗余,将UniprotKB中的多个数据合并成一个,AC号仍保持不变。
②Entry name也是每个数据唯一具有的标识符,它可以展示数据的生物学信息,但并不稳定存在的,比如说我们要将TrEMBL中的数据转入Swiss-Prot,那么我们需要变更数据的Entry name,此时同一个数据的Entry name就发生了改变,但是它的AC号仍然保持不变。这就是他们之间的区别!
③还有需要注意的是,一个数据可能有两个或者多个accession number 。
原因主要有两个:
a.当合并两个或多个数据条目时,保留所有数据条目的登录号。第一个AC编号称为“主要AC编号”,其他编号称为“次要AC编号”。编号排序是按字母数字顺序排列的。
b.如果现有数据条目被分割为两个或多个数据条目(“拆分”),新的“主要”登录号将归属于所有分裂的条目,而所有原始登录号将保留为“次要”登录号。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次级登录号均为P29358 。
所以,UniprotKB建议,我们最好使用数据的主登录号作为数据引用的方式(不是Entry name ,也不是二级登录号),因为主登录号是唯一并且稳定存在的数据标识符。
四、NCBI
(一)关于NCBI 的 GenBank & RefSeq
①NCBI(National Center for Biotechnology information)即美国国家生物技术信息中心是一个机构组织,而不是数据库,该中心的任务是:为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学研究人员和医护人员应用数据库和软件;努力协作以获取世界范围内的生物技术信息
②GenBank是NCBI建立的DNA序列数据库
③ RefSeq即参考序列。NCBI的RefSeq 数据库(美国国立生物技术信息中心参考序列库) 是一个参考序列的非冗余集合,数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。RefSeq 数据库是目前世界上最具有权威性的序列数据库,也是目前最可信赖的人类基因mRNA序列数据库
④RefSeq和genbank的数据的区别?
a. genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。
b.RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高
(一)关于 GenBank 和 RefSeq 的 Accession Number
①GenBank Accession Number**
GenBank Accession numbers命名的规则是:
类别 | 规则 |
---|---|
Nucleotide | 1个字母+5个数字 或 2个字母+6位数字 |
Protein | 3个字母+5位数字 |
WGS | 4个字母+2位数字+WGS的版本+6-8位数字 |
MGA | 5个字母+7位数字 |
②RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number.一般的命名格式:
前缀为两个字母+下横线('_')+ 6 个或更多的数字
NCBI RefSeq命名格式的详细说明
例子
Accession | Molecule | Method | 说明 |
---|---|---|---|
AC_123456 | Genomic | Mixed | 基因组序列,主要是病毒、原核生物。 |
AP_123456 | Protein | Mixed | 蛋白序列,AP_原本只用于细菌的蛋白。 |
NC_123456 | Genomic | Mixed | 全基因组序列,包括细胞器的、质粒等 |
NG_123456、NM_123456 | Genomic | Mixed | 不完整的基因组序列, |
NM_123456789 、NP_123456 | mRNA | Mixed | 成熟的mRNA |
NP_123456789 | Protein | Mixed | 全长蛋白序列。但也有可能包括非全长的蛋白或成熟的多肽序列。 |
NR_123456 | RNA | Mixed | 不编码的RNA,假基因或其它 |
Accession 前缀
Accession 前缀 | 类型 | 说明 |
---|---|---|
AC_ | Genomic | Complete genomic molecule, usually alternate assembly (完整的基因组分子,通常交替组装) |
NC_ | Genomic | Complete genomic molecule, usually reference assembly(完整的基因组分子,通常参考组装) |
NG_ | Genomic | Incomplete genomic region(基因组区域不完整) |
NT_ | Genomic | Contig or scaffold, clone-based or WGS(重叠群或支架,基于克隆或WGS) |
NW_ | Genomic | Contig or scaffold, primarily WGS |
NS_ | Genomic | Environmental sequence(环境顺序) |
NZ_ | Genomic | Unfinished WGS (未定义的WGS) |
NM_ | mRNA | |
NR_ | RNA | |
XM_ | mRNA | Predicted model (预测模型) |
XR_ | RNA | Predicted model(预测模型) |
AP_ | Protein | Annotated on AC_ alternate assembly(在AC_备用装配上标注) |
NP_ | Protein | Associated with an NM_ or NC_ accession(与NM_或NC_加入相关) |
YP_ | Protein | |
XP_ | Protein | Predicted model, associated with an XM_ accession(与XM_加入相关的预测模型) |
ZP_ | Protein | Predicted model, annotated on NZ_ genomic records (预测模型,已在NZ_基因组记录中注释) |
- WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.
五、Entrez ID
GeneID即Entrez Gene ID(是NCBI中用来连接各个不同数据库统一的基因标志符)**
Entrez是归属于NCBI的一个综合的文本检索引擎系统。这个检索引擎整合了PubMed数据库的生物医学文献与其他39个文献和分子数据库(例如GEO,Entrez Gene等,这些数据库基本涵盖了DNA和蛋白质序列,结构,基因,基因组,遗传变异和基因表达方面的数据)。NCBI组织建立了Entrez,Entrez整合了各大数据库的入口,便于进行数据库检索。通常所说的检索NCBI数据库,其实就是在检索Entrez这个引擎系统所整合的生信数据库。
由于Entrez 作为一个综合性检索引擎,为了方便,其对不同的 Gene 进行了编号, 即 Entrez Gene ID. 并且由于 Entrez ID 相对稳定,也被众多其他数据库, 如 KEGG 等. 一串数字的Entrez Gene ID 不但具有很高的辨识度,而且在ID转化中占据着重要的地位。生信菜鸟团的博客《NCBI的基因entrezID相关文件介绍》讲解了Entrez ID主要的信息文件。
gene_id | symbol | chromosome |
---|---|---|
352937 | dio2 | 20 |
表中geneid即为 Entrezid. 在ID转换中有重要的作用。
六、UCSC ID
UCSC ID 由小写字母和数字构成,
起 uc+三位数字+三位小写字母+小数点+数字构成版本号如:uc010qfk.3, uc010qfk.3.
! UCSC ID几乎被抛弃不用了,只是因为UCSC是三大数据库之一而已。
补:tax_id代表物种的id, 如人类是9606
生信技能树:超精华生信ID总结,想踏入生信大门的你-值得拥有
常用数据库ID表示方式
UniProt数据库参考学习连接1(作者:thinkando)
NCBI参考序列(RefSeq)常见问题回答
NCBI RefSeq命名格式的详细说明
DDBJ/EMBL/GenBank Accession的命名规则