基因、蛋白等的命名

本文介绍了基因、蛋白、引物、载体、限制酶切位点、酶、微生物的命名规则。由于涉及领域宏大，全面的细则以报告或文件的形式发表，本文只是对各类的命名做形而上的简介，同时融合了笔者的一些认识，在必要之处例证说明。笔者并非做以上所有领域的研究，只是困惑于文献中出现的种种名词，方做以下梳理。如需了解详细命名法，十分推荐参考那些冗长的原始定则或请教各领域专家，也许参考分类相关及其领域的文献能更容易地领略那些命名的方法。

基因部分以植物为对象，许多个性化的命名未来得及补充，待日后添加。微生物部分介绍了细菌、真菌及病毒在物种层次及种群层次的命名情况。

一、基因的命名

基因名无论全称或简称，无论长短均需斜体。

基因名通常是反映基因的功能或特性。

文章首次出现的基因应全写，后可简写。

完整基因名包括前缀、主体、后缀，前缀主要是物种名，后缀反映基因超家族、家族、亚族及基因次第等信息，例如Arabidopsis thaliana EXPANSIN A1；简写时前缀与基因名可缩写，例如AtEXPA1^{[1, 2]}。这个完整的基因名表示该基因来源于Arabidopsis thaliana，且为拥有EXPANSIN结构的首个（A）基因家族中的第一个基因。（关于基因家族后面解释）

简写基因名的主体是三个字母，即反映基因功能或特性词汇的首字母缩写。野生型该三字母大写，突变型该三字母小写。

基因名的后缀实际在不同基因家族中有不同的含义，这是由于不同基因家族的体量不同，能够划分的层次有别。大的基因家族可以划分出基因超家族（superfamily）、基因家族（family）、亚族（subfamily）、基因（gene）几个层次（图1）。基因超家族包括序列结构相似，功能却有不同的若干基因家族。功能不同是氨基酸序列差异的结果，相比碱基序列，氨基酸变异更灵敏，只需改变一个碱基便可导致氨基酸的替换，因此存在序列差异不很大，氨基酸差异即显著的情况。基因家族通常包括序列结构相似、功能也相似的多个基因；如果基因家族所含基因众多，便可从中划分若干亚族。亚族通常存在于不同物种间，即受物种分化而形成，与原亚族相比，结构相似，功能有一定差异。

图1 拟南芥（At）Expansin蛋白序列以及其他物种拥有类Expansin的EXLA和EXLB序列构建的系统发育树，这是一棵NJ树。所谓的其他物种包括水稻（Os)、棉花（cot）、番茄（tom）、苜蓿（medi）、生菜（let）。所有蛋白序列聚为4支，分别对应EXPA、EXPB、EXLA、EXLB四个基因家族，四个家族组成一支基因超家族。

尽管不同基因家族的后缀类型多样，仍然有可总结的共性。

（1）不同层次可依次用大写罗马字母（A, B, C, …）、阿拉伯数字（1, 2, 3, …）、小写罗马字母（a, b, c, …）、阿拉伯数字（1, 2, 3, …）表示，如CYP2B1，表示CYP系列（细胞色素P450）第二个基因家族，第二个亚族的第一个基因^[3]。由于层级不定，一个基因的名称中可以只出现一种编号，且编号可选择性使用，如AtEXPA1，表示来源于At的EXP系列第一个基因家族的第一个基因^[1]。

（2）等位突变基因用基因名加连字号和数字表示，如expA1-1表示EXPA1的等位突变基因。

（3）野生型基因和突变基因的蛋白产物名称与其各自的基因名相同，只是书写要用正体，如EXPA或expA1-1。

（4）种属名的首字母缩写放在最前面，用以表示不同的物种；如果两个物种种属名的首字母缩写相同，则须在其种属名缩写后加一区别性字母。

个性。

（1）一些具有特殊用途的保留字。基因名末尾的P代表假基因（如ACTBP2 = actin beta pseudogene 2，表示ACT系列第二个基因家族的第二个假基因），BP代表结合蛋白，L代表类似的，R代表受体或调节因子，N或NH代表抑制子^[4]。

（2）……

其他。

（1）DNA片段的命名。由四部分组成。第一部分用D表示DNA；第二部分用0、1、2、...、22、X、Y、XY表示DNA片段所在的染色体位置，其中0代表还不知染色体位置，而XY表示片段在X和Y染色体上都有该片段；第三部分表示用探针检测到的DNA片段的复杂程度，S代表这是一条独一无二的DNA片段，Z代表在染色体一个单一位置重复出现的DNA片段，F代表在多条染色体上都存在同源序列但还没有定义家族的DNA片段；第四部分为区分不同的DNA片段加上一个数字编号^[4]。例如微卫星DNA标签DXS990，表示染色体X上独一无二的编号为990的DNA片段。

二、蛋白的命名

蛋白名与对应的基因名相同，只是书写时用正体。

三、引物的命名

引物命名尚未有统一标准，所见名均为缩写或俗名（如T7，pAc5-5等），全称通常能反映引物退火点位，包括结合对象、结合片段名、结合位点的碱基定位等信息。例如，ITS1引物的全名为nu-SSU-1787-5'，“nu-SSU”表明该引物退火于细胞核rDNA的小亚基处（nuclear Small SUbunit of ribosomal DNA），“1787”代表引物5’末端参考Saccharomyces cerevisiae Meyen exHansen标准序列的碱基定位，“5’”表明引物退火到编码链，若为“3’”则表明引物退火到非编码链？^[5]。

四、载体的命名

载体（Vector）是在基因工程重组DNA技术中将DNA片段（目的基因）转移至受体细胞的一种能自我复制的DNA分子。常见载体包括细菌质粒、噬菌体和动植物病毒等。

载体的命名没有统一的规定，由研究者自行命制，名称通常能反映载体的类型、实验编号、特性等信息。通常的载体名首字母为小写的“p”（穿梭载体等少数例外），例如质粒载体pBR322，“p”代表载体，“BR”为两位研究者Bolivar和Rogigerus姓氏的字首，“322”是实验编号；pUC8质粒载体，“UC”表示该载体首先由美国加州大学（University of California）学者构建（1987年），“8”是实验编号；pYAC载体中“YAC”是酵母人工染色体（yeast artificial chromosome）的英文首字母。载体名的含义可参考载体构建时发表的原始文献。

五、限制酶切位点的命名

限制酶切位点的名字有统一的规定，即酶切位点首次发现的物种属名首字母+种加词前两字母+（实验菌株）+编号。如果名中有实验菌株号，则编号在各菌株中从1开始，若名中无实验菌株号，编号从该物种发现的第一个限制性位点开始连续编。此外，属名首字母+种加词前两字母需斜体，其余正体。

例如，EcoRⅠ，表示该位点发现于大肠杆菌Escherichia coli，实验菌株R的第1种限制性位点。HindⅢ，表示该位点发现于流感嗜血杆菌Haemophilus influenzae，实验菌株d的第3种限制性位点。BglⅡ，表示该位点发现于球芽孢杆菌Bacillus globigii，第2种限制性位点。

六、酶的分类与命名

（一）酶的系统分类^[6]

目前国际上通用的酶系统分类是国际生物化学和分子生物学联合会（International Union of Biochemistry and Molecular Biology, IUBMB）的命名委员会（Nomenclature committee）于1961年提出的，首先是根据酶催化的化学反应性质分为六大类，分别用数字1-6表示（表1）。

表1 酶的分类

每个大类中，再根据底物中被作用的基团或键的特点，分为若干亚类，用阿拉伯数字表示；每一亚类又根据接收电子的受体不同分为若干亚亚类，同样用阿拉伯数字表示；而亚亚类中的酶依次用阿拉伯数字编号。每一种酶都可以由此获得一个独一无二的由4个阿拉伯数字组成的编号，编号前加上EC表示酶学委员会（Enzyme Commission）的缩写。如甘油脱氢酶（Glycerol Dehydrogenase）的编号是EC 1.1.1.6，表示该酶属于氧化还原酶类，作用于底物的CH—OH基团，以NAD⁺或NADP⁺为电子受体，在这一亚亚类中排在第6个。

（二）酶的命名^[6]

1961年公布酶系统分类以前，酶的命名相当混乱，往往使用习惯名，故常有一酶数名、一名数酶的情况出现。为改变这种状况，NC-IUBMB建议，每一种酶都给予一个系统名和一个习惯名。

系统名要求明确表明酶的地物和催化反应的性质，因此系统名由底物名称和催化反应类型两部分组成，如葡萄糖异构酶。如果有两个或两个以上底物，则需表明所有底物名称，不同底物名称用“:”隔开，如乳酸:NAD⁺脱氢酶。如果底物之一是水，通常水可以省略，如乙酰胆碱:水乙酰水解酶通常写作乙酰胆碱乙酰水解酶。

习惯名有的是根据酶作用的底物命名，如淀粉酶、蛋白酶等。有的还加上酶的来源以区分不同来源的同一类酶，如胃蛋白酶、胰蛋白酶等。有的根据酶催化反应的性质命名，如水解酶、氧化酶、还原酶等。有的根据酶的地物结合反应性质命名，如乳酸脱氢酶、葡萄糖氧化酶等。绝大多数酶的英文以“ase”为后缀，如Ligase（连接酶）、Hydrolase（水解酶）等，但少数例外，如Pepsin（胃蛋白质酶）等。

酶学委员会规定，在以酶为主要论题的文章中，首先要将酶的编号、系统命名和来源标示清楚，然后可以按照个人习惯，使用习惯名或系统名。

值得注意的是，酶的系统分类和命名无法区分不同的同工酶（Isozyme），为了更准确地描述某种同工酶需要指明同工酶的类型。

七、微生物的命名

（一）细菌与真菌

细菌与真菌的命名遵循一般物种的命名法则，即采用拉丁二名法或三名法。

同一种细菌/真菌，不同来源的个体在实验室中无性培养形成的种群称不同的菌株（Strain）。

菌株（Strain，又称品系），表示同种微生物不同来源的纯种培养，从自然界中分离得到的每一个微生物纯培养都可称一个菌株。

菌株的命名根据实验需要确定，一般可用字母加编号表示（字母多数表示实验室、产地或特征等信息，编号则为序号）。

（二）病毒

病毒的命名分为俗名法和拉丁双名法。尽管双名法是相对规范的命名法，使用时通常习惯用俗名，甚至有些病毒只有俗名，未命双名，如新型冠状病毒SARS-CoV-2（Severe Acute Respiratory Syndrome Coronavirus 2）。

俗名法对同一种病毒会出现多名的情况，如烟草花叶病毒，可以是Tobacco mosaic Virus（TMV），Nicotiana Virus 1（烟草病毒1号=烟草花叶病毒）。对于同一物种发现的多种病毒，可以在编号上体现，如烟草蚀斑病毒Nicotiana Virus 7。然而，过去的俗名中，许多同一物种不同编号的病毒实际为不同毒株而已，可见，俗名法一度相当混乱。

特别地，噬菌体病毒常使用代号命名（字母和数字），如噬菌体T2、T4、T6。实际上，噬菌体也有拉丁学名，在“属”、“种”阶元上，称之为某某噬菌体属、某某噬菌体（图2）^[7]。

图2 部分噬菌体目、科的系统分类示意图（冯烨，2013）

病毒毒株相当于细菌菌株。关于毒株的命名通常是根据实验需要、病毒变异情况、次序进行命名。如对某病毒进行多毒株培养，每一宿主的毒株需逐一编号，结合字母与数字。根据病毒变异情况，例如SARS-CoV-2，天然出现的主要毒株被命名为α、β、δ（即AY.4进化分支）、Ο等，其中各自的变异型以字母、数字命制，如Ο的变种BA.2亚型毒株。

关于病毒的命名可参考知乎答主“Vigorous Cooler”的回答^[8]：

病毒是如何命名的？ - Vigorous Cooler的回答 - 知乎。

参考文献

[1] Kende H, Bradford K, Brummell D, et al. Nomenclature for members of the expansin superfamily of genes and proteins[J]. Plant Mol Biol. 2004, 55(3): 311-314.
[2] 牛艳梅，沈文涛，周鹏. Expansin超级家族的进化与命名[J]. 广东农业科学. 2007(08): 133-135.
[3] 唐振华，胡刚. 细胞色素P450基因的命名及其基因表达的调控[J]. 昆虫知识. 1993(05): 311-314.
[4] 杨泉胜，杨岐生. 人类基因命名的规则和过程[J]. 生命的化学. 2000(04): 179-181.
[5] Andrea G, Paula T D. A nomenclature for fungal PCR primers with examples from intron-containing SSU rDNA[J]. Mycologia. 1996, 88(5).
[6] 袁勤生. 酶与酶工程[M]. 第2版. 上海: 华东理工大学出版社, 2012.
[7] 冯烨，刘军，孙洋，等. 噬菌体最新分类与命名[J]. 中国兽医学报. 2013, 33(12): 1954-1958.
[8] 病毒是如何命名的？ - Vigorous Cooler的回答 - 知乎.

基因、蛋白等的命名

一、基因的命名

二、蛋白的命名

三、引物的命名

四、载体的命名

五、限制酶切位点的命名

六、酶的分类与命名

（一）酶的系统分类^[6]

（二）酶的命名^[6]

七、微生物的命名

（一）细菌与真菌

（二）病毒

参考文献

推荐文献

你可能感兴趣的:(基因、蛋白等的命名)

基因、蛋白等的命名

一、基因的命名

二、蛋白的命名

三、引物的命名

四、载体的命名

五、限制酶切位点的命名

六、酶的分类与命名

（一）酶的系统分类[6]

（二）酶的命名[6]

七、微生物的命名

（一）细菌与真菌

（二）病毒

参考文献

推荐文献

你可能感兴趣的:(基因、蛋白等的命名)

（一）酶的系统分类^[6]

（二）酶的命名^[6]