本文首发于微信公众号“基因部落”,欢迎关注,获取更多干货。
HGVS规则下的变异命名专题,不知不觉已经到了最后一期,这一期,分享一下关于蛋白水平的变异命名,本专题的三篇文章看下来,今后的变异命名和变异解读应该可以风雨无阻了(先给自己点个赞)。
三个碱基组成一个密码子,翻译成一个氨基酸,碱基的变异可导致不同种类的氨基酸的变化,比如:
一个氨基酸变成另一份氨基酸:错义突变(missense)
一个氨基酸变成终止密码子:无义突变(nonsense)
虽然碱基发生变化,但是编码的氨基酸没有变化:同义突变(silent)
注意这里的中英文对应关系哦,尤其是nonsense和silent。
不同的突变类型,都归于上述的氨基酸的变化。
氨基酸也有类似碱基的突变类型:
置换(Substitution)
变异表示形式(Format):
“prefix”“amino_acid”“position”“new_amino_acid”
如p.(Arg54Ser)
“prefix”=参考序列 = p.
“amino_acid”=被替换的氨基酸= Arg
“position”=被替换的氨基酸位置= 54
“new_amino_acid”=新的氨基酸 = Ser
NOTE
1. 这里指的是预测的氨基酸的变化,用圆括号表示,没有经过实验验证,如没有经过RNA或蛋白序列验证的情况。
2. 与碱基的变化相同,氨基酸水平的多态性位点亦不能表示为:p.76Ser/Arg,不论是碱基的变化还是氨基酸的变化,都应该以中立客观的方式去描述,一视同仁。
▼举个栗子▼
错义突变:
LRG_199p1:p.Trp24Cys:24位Trp变为Cys
NP_003997.1:p.(Trp24Cys):24位Trp变为Cys,基于DNA序列推断,无实验证据。
无义突变:
LRG_199p1:p.Trp24Ter(p.Trp24*):24位的Trp密码子变为终止密码子,此处,终止密码子的表示方法一般用两种:“Ter”/“*”。
同义突变:
NP_003997.1:p.Cys188=:虽然碱基发生了改变,但是所处的188位氨基酸没有发生变化。(同义突变用“=”表示)
起始密码子:
LRG_199p1:p.0:不翻译蛋白质
LRG_199p1:p.?(p.Met1?):起始密码子丢失,但无法预测是否有蛋白质翻译
形成新的起始密码子:(一般经过了实验验证)
新起始密码子位于原起始密码子的上游(upstream):
见延伸(Extension)部分
新起始密码子位于原起始密码子的下游(downstream):
NP_003997.1:p.Leu2_Met124del:这里的位置表示的是由于原起始密码子的变化,原氨基酸序列的前123个氨基酸无法翻译,在原序列的124位产生了新的起始密码子。
注意,此处同样遵循最靠近3’法则。
不确定(uncertain)
NP_003997.1:p.(Gly56Ala^Ser^Cys):56位Gly不确定变成了Ala 、Ser、Cys这三种中的哪一种氨基酸。
嵌合现象(mosaic)
LRG_199p1:p.Trp24=/Cys:同DNA水平描述,24位原序列氨基酸Trp和改变后的氨基酸Cys同时存在,但不管两种氨基酸的比例如何,都要把与参考序列相同的氨基酸置于第一位。
缺失(deletion)
变异表示形式(Format):
“prefix”“amino_acid(s)+position(s)_deleted”“del”
如:p.(Cys76_Glu79del)
“prefix”= 参考序列 = p.
“amino_acid(s)+position(s)_deleted”=氨基酸缺失的起始位置 = Cys76_Glu79
“del”= 缺失= del
NOTE
1. 氨基酸的缺失命名规则大部分与DNA水平相似。
2. 同样也遵循最靠近3’端规则。
3. 碱基缺失应优先考虑蛋白水平变异,最常见的为移码变异。
▼举个栗子▼
LRG_199p1:p.Val7del:7位氨基酸缺失
LRG_199p1:p.(Val7del):预测7位氨基酸缺失,未经过实验验证
p.Gly2_Met46del:参考序列的起始密码子缺失,新的密码子始于参考氨基酸序列的46位
重复(Duplication)
变异表示形式(Format):
“prefix”“amino_acid(s)+position(s)_duplicated”“dup”
比如:p.(Cys76_Glu79dup)
“prefix”=参考序列 = p.
“amino_acid(s)+position(s)_duplicated”= 重复氨基酸范围位置 = Cys76_Glu79
“dup”=重复= dup
NOTE
1. 氨基酸重复一般规则同DNA水平。
2. 同样遵循最靠近3‘端原则。
▼举个栗子▼
p.Ala3dup:原序列:MetGlyAlaArgSerSerHis,发生该变异后的序列:MetGlyAlaAlaArgSerSerHis
p.(Ala3dup):同上,但是改变以未经过实验验证。
p.Ala3_Ser5dup:第3到5位的氨基酸发生了一次重复。
p.Ser6dup:原序列:MetGlyAlaArgSerSerHis ,变异后的序列:MetGlyAlaArgSerSerSerHis,遵循最靠近3’端原则,位置为第6位,而不是第5位。
移码突变(Frame shift)
变异表示形式(Format):
“prefix”“amino_acid”position”new_amino_acid”“fs”“Ter”“position_termination_site”
如:p.(Arg123LysfsTer34)
“prefix”= 参考序列 = p.
“amino_acid”=发生改变的第一个氨基酸 = Arg
“position”= 氨基酸位置=123
“new_amino_acid”= 突变后新的氨基酸 = Lys
“fs”= 移码=fs
“Ter”= 改变的最后一个氨基酸= Ter / *
“position_termination_site”= 最后一个氨基酸的位置= 34
NOTE
1. 移码突变为一种特殊形式的del/ins,但是在描述的时候,不能列出缺失的那一部分的位置和氨基酸。
2. 突变后的第一个氨基酸未必对应DNA水平的突变碱基。
▼举个栗子▼
p.Arg97ProfsTer23
第97位的Arg突变为Pro,后续并发生移码,编码23个氨基酸后终止,该形式也可以写成p.Arg97fs。
p.(Tyr4*)
经过序列预测(有括号),第4位的Tyr突变成了终止密码子。可以对照序列帮助理解,原序列: ATGGATGCATACGAGATGAGG.. ,突变后的序列:ATGGATGCATA\_GTCACG (c.12delC) 。
延伸(Extension)
变异表示形式(Format):
N端的延伸(N-terminal)“prefix”“Met1”“ext”“position_new_initiation_site”
如:p.Met1ext-5
“prefix”= 参考序列 = p.
“Met1”= 参考起始密码子= Met1
“ext”= 延伸= ext
“position_new_initiation_site”= 突变后往上游延伸的起始密码子位置= -5
C端的延伸(C-terminal):
“prefix”“Ter_position”“new_amino_acid”“ext”“position_new_termination_site”
如:p.Ter110Glnext*17
“prefix”= 参考序列= p.
“Ter_position”= 参考终止密码子位置= Ter110
“new_amino_acid”= 原终止密码子突变后的编码氨基酸= Gln
“ext”= 延伸=ext
“position_new_termination_site”= 突变后新终止密码子位置= *17
NOTE
延伸也是属于特殊形式的del/ins,或特殊形式的移码突变,在进行变异描述的时候,需要遵循优先权:1)延伸,2)移码突变或del/ins突变。
▼举个栗子▼
p.Met1ext-5
突变后,在5’-UTR区(原起始密码子上游5位)形成了新的起始密码子,该变异也可描述为: p.Met1extMet-5
p.Ter110Glnext*17
注意:该变异也可以描绘为:p.*110Glnext*17,而不能写成:p.Ter110GlnextTer17 ,“Ter17”表示的是17个氨基酸,而不是位置,因此,这里只有用“*”才是正确的。
氨基酸的很多变异类型的命名原则与DNA水平的碱基变异命名原则一致,比如:插入(Insertion)、缺失-插入(Deletion-insertion)、Repeated sequences(重复序列)等。
粉丝福利
现提供电子版书籍《分子诊断与肿瘤个体化治疗原则》(Principles of Molecular Diagnostics and Personalized Cancer Medicine),关注“基因部落”微信公众号,后台回复“中文版”,即获得中文译本,回复“英文版”,即获得英文原版。
本文来自微信公众号“基因部落”。如需转载,请后台回复“转载”,获取转载指南。如有其他合作需求及投稿请发送邮件至:[email protected] (欢迎转发到朋友圈~)