这个分栏主要是为了介绍《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》,有助于开始学习蛋白质的朋友了解一些基本生物知识。本人能力有限,如果错误欢迎批评指正。
接上期内容
超二级结构,也称为结构基序,是二级结构的常见组合。这些二级结构组合出现得比较频繁,因此它们都有名称。一个经典的例子是卷曲线圈,其中两个螺旋被扭曲在一起。另一种是β-螺旋,它是由β-链以右手或左手螺旋的方式结合形成的螺旋。β-螺旋结构具有高度的稳定性。值得注意的是,三链β-螺旋结构可以作为噬菌体的细胞穿刺装置。它们的高稳定性和螺旋结构是在感染过程中破坏宿主细胞膜的关键因素。这种结构通常有一个右旋的扭曲。例如,EF hand, the β-hairpin, and the β–α–β motif通常以右旋的形式存在。蛋白质中95%的β-α-β基序是右旋。超二级结构的手性是指当我们沿着序列从N端到C端移动时,这些结构相对于链轴的相对旋转方向。图1.17说明了左手和右手的β-链之间以及螺旋图案之间的差异。单个β链的右旋扭曲可以用l-氨基酸的内在偏好来解释。用一条单链,把它折叠成一个紧凑的结构,比如一个环。如果环是右旋,它会自然地释放右手扭曲/应变。如果这个环是左撇子的,就会增加应变。你可以通过首先扭转一条皮带,然后把它形成一个右手或左手的环。
图1.17 超二级结构中的手性。平行的β链或螺旋图案可以是(A)左旋或(B)右旋。右手路径缓解了右手β链的压力。
另一种类型的蛋白质亚结构被称为结构域。结构域是多肽链的一部分,它可以自己折叠,独立发挥作用,独立进化,或者可以通过其紧致性来识别。一个结构域是蛋白质功能的最小单位。通常每个域都有一个模块化功能,如结合配体,跨越细胞膜(膜蛋白的跨膜域),包含活性位点(酶的催化域),结合核苷酸(转录因子中的DNA/rna结合域),或提供一个用于结合其他蛋白质的表面(底物结合域)。一个蛋白质链可能有一个或多个结构域,通常是几个。图1.18显示了丙酮酸激酶有三个结构域。有时进化会重用结构域-相同的结构域可以出现在不同的蛋白质中。有趣的是,由于基因重组的结果,蛋白质内的不同结构域有时会由基因组内的不同区域编码。截至2015年,已知有超过17万个不同的结构域,残基数量从13个到1000个不等。
图1.18 蛋白质结构域是独立折叠的亚基。丙酮酸激酶由n端(红色)、PK结构域(绿色)和C端(蓝色)残基组成的三个结构域组成。
这些复杂的蛋白质拓扑结构可以使用接触图的方法进行可视化。对于有n个残基的链来说,接触映射是一个n×n个矩阵,其中如果残基i和j在接触,则元素(i,j)为1(或一个点),否则为0(或空)。接触图是对称的,所以通常只显示矩阵的上(或下)对角线的一半。接触图提供了蛋白质三级结构中所有残基间接触的信息。尤其当二级结构以简单模式的形式出现的时候。例如,螺旋出现为与主对角线相邻和平行的点线。平行的β线与接触图上的主对角线平行但不相邻。反平行线是垂直于主对角线的点线。如果接触靠近主对角线,则称为局部接触,如果它们距离较远,则称为非局部接触。螺旋和turn只涉及局部接触,而β-折叠的接触为非局部接触。图1.19显示了糜蛋白酶抑制剂(CI2)的天然结构接触图,它具有所有这些以上所提的所有结构例子。
图1.19 (A)糜蛋白酶抑制剂(CI2)的接触图。两个轴代表序列上的氨基酸数量。当来自不同残基的Cα或Cβ原子彼此之间在6A以内时,这里就定义了两个残基之间的接触(用图上的一个点表示)。这四个大的接触簇表明了蛋白质中的主要结构相互作用。(B)CI2中β-链的三维结构和身份。在(A)和(B).中,螺旋显示为蓝色,链显示为棕色。
假设你发现了一个新的蛋白质结构,并想知道它是否类似于其他已知的结构。你需要一种方法来对其结构进行分类,从最全局的特性开始,一直到最详细的特性。蛋白质在20世纪70年代首次被分为四个结构家族:α(主要α-螺旋)、β(主要β-链)、α/β(顺序散布α-螺旋和β-链)和α+β(主要α-螺旋的一个区域和另一个主要β-螺旋的区域)。现在更多的蛋白质结构被发现,这四种结构类已经成为广泛分类方案的基础。假设你的蛋白质碰巧是一个四链的β折叠,仅仅用这个术语并不足以定义这个结构。因为不同的拓扑关系都可以通过这些链构造出来。图1.20显示了四链β-折叠存在的12种可能的拓扑结构,其中第三和第四链(按顺序)是反平行的。有些拓扑结构比其他拓扑结构更为常见。
图1.20 四个β链组成的拓扑图。在所有可能的四链β片的拓扑中,只有12条(如图所示)在主序列3和4中彼此反平行,并由三个β-β环连接。这个集合中拓扑的出现概率并不是一样的。另外,不是所有的形式都是可以被观察到的。
最常见的蛋白质折叠之一是β桶。一个β桶由相邻的β链组成,排列成一个圆柱形的β折叠。圆柱形结构比平坦或平面的β折叠更有利,因为圆柱形在边缘没有留下不稳定的氢键基团。通常这些线是由交替的极性和疏水残基构成的。对于膜蛋白来说,这种交替允许极性基团位于蛋白质的内部,疏水基团位于蛋白质的外部,与膜脂质接触。水溶性蛋白质采用相反的排列方式:极性基团在外部,而疏水基团在内部。桶的中心通常是一个结合位点;例如,维生素a(视黄醇)能与视黄醇结合蛋白结合。
图1.21 常见的蛋白质折叠的例子。(A)球蛋白折叠体包含8个紧密排列的α-螺旋排列在一起,因此它们可以结合一个含铁的血红素基团(未显示)来存储和运输氧气。(B)果冻卷褶皱是通过将两个反平行的β链配对形成一个桶,形成果冻卷褶皱。(C)左旋的TIM桶是一个甜甜圈状的形状(环面),由交替的α-螺旋(浅蓝色)和β-链(红色)排列在一个封闭的曲线上形成。(D)罗斯曼折叠包含两个β-β-α-β-α-β图案,形成一个中央六链β-sheet。在这种情况下,β链(红色)和α螺旋(蓝色)来自酶脱羧酶的一个结构域,与一个黄素单核苷酸辅助因子(未显示)结合在其核苷酸结合位点上。
“折叠”只是描述蛋白质的几何性质。还通过了解进化关系来获得蛋白质分类的信息-两个蛋白质是否从一个祖先进化而来。这种关系将在第7章中进行更详细的讨论。在这里,我们只是注意到有一些基于这类信息的蛋白质结构数据库。对一个共同进化祖先的推断通常是基于两个氨基酸序列之间的相似程度。CATH是一个基于蛋白质的三维原生拓扑结构和它们彼此之间的进化关系对蛋白质进行分类的数据库。CATH将蛋白质结构域分配到属于同一类、具有共同结构或具有共同拓扑结构(fold)或属于同一同源家族(三级结构)的子集中。图1.22给出了常见的CATH类的分布情况。
图1.22 四种CATH类中PDB中蛋白质结构的分布。
蛋白质的折叠(相当于CATH的拓扑结构)是纯几何的。两个具有相同折叠的蛋白质不需要有任何特定的进化关系。另一方面,如果两个蛋白质的序列同源性小于15%,而它们的结构和功能表明它们有一个共同的进化起源,那么它们可能属于同一个超家族。例如,肌动蛋白、热休克蛋白的atp酶结构域和己糖激酶属于同一个超家族。此外,如果两种蛋白质共享30%或更多的氨基酸序列,则被认为是同一家族的成员。如果序列同源性小于这个值,则降低到15%,但是蛋白质的功能和三维结构非常相似,那么它们可能仍然属于同一家族。
例如,球蛋白形成了一个家族,因为它们执行相同的功能,具有高度相似的结构,并具有很高的序列同一性。而与三级结构的域相比,四元结构中的亚基除了不共价键合外,偶尔有二硫键桥交联血红蛋白具有第四系结构(见图1.11)。它在红细胞中携带氧气。它有四个子单元。每个亚基都可以结合一个氧分子,但只有所有四个亚基的完整结构才能以充分的协同作用结合氧气,在肺中吸收氧气并将其输送到毛细血管。四元结构中的对称性通常对它们的功能很重要。例如,配体结合的协同性取决于能够结合蛋白质的配体的数量,而这反过来又取决于蛋白质有多少个亚基。四级结构在PDB中被称为“生物组件”。在某些情况下,四级结构是由两个或多个蛋白质的交错来定义的。在结构域交换中,一个单体的一个结构域(或二级结构)可以由一个不同的、相同的单体中取代了相同的结构域(或二级结构),从而产生一个相互交织的二聚体或低聚体(图1.23)。有时,结构域交换可以重复,将一个蛋白质连接到另一个蛋白质连接在一起,形成蛋白质组装的有序形式。纤维连接蛋白模块由这些结构域交换的蛋白链形成原纤维。
图1.23 一些四元结构是通过结构域交换构建的。(A)蛋白单体的两个结构域(拱和球)能够形成稳定的四元结构,从二聚体到三聚体再到低聚体。稳定的相互作用是在来自不同链的交换域形成的界面上。(B)白喉毒素二聚体的黄色和蓝色链交换β结构域。
-一些稳定蛋白质在膜环境中发挥作用
膜蛋白定位于细胞膜或细胞器的细胞膜上,如线粒体。一些膜蛋白是允许离子流动的通道,如钾离子。其他的则作为电子或质子泵(例如,线粒体中的细胞色素c氧化酶和复合物IV,细胞膜中的atp酶)、受体(例如,g蛋白偶联受体,GPCRs)或转运体(例如,谷氨酸转运体和ABC转运体)(图1.24)。一些膜蛋白可以同时作为受体和离子通道(AMPA和NMDA)。当它们嵌入脂质双分子层时,它们是稳定的且能够发挥功能作用。而且它们在维持或调节细胞外和细胞内区域的离子和底物的生理水平方面发挥着关键作用-协助跨膜建立适当的浓度或能量梯度,并实现跨膜的信号转导事件。外周膜蛋白暂时附着(通常从细胞外侧)到细胞膜或完整的膜蛋白上。值得注意的是,这里我们指的是完整的膜蛋白。一般来说,膜蛋白是重要的药物靶点。
图1.24 不同大小和类型的膜蛋白。其大小从格莱霉素A中的小螺旋肽到具有大的胞外和/或胞内结构域的多聚蛋白,如乙酰胆碱受体。
膜蛋白通常有三个区域:跨膜(TM)、细胞外和细胞内。细胞膜是典型的脂质双分子层,它是由两层脂质分子组成的三明治。极性基团头向外朝向水,疏水的尾巴在双分子层内彼此面对。球状蛋白的核心埋藏有疏水基团和面对周围水的极性/带电基团,膜蛋白的表面通常含有疏水残基,与膜内周围的脂质分子有有利的接触。一类重要的膜蛋白是GPCRs(g-蛋白偶联受体)。
GPCRs有一个7-tm-螺旋折叠。β-桶状折叠也很常见,例如孔蛋白。在2012年已知的1700个TM结构中,大约有1400个是α-螺旋形的,250个是β-桶形的。许多膜蛋白都是多聚体的。单体组装形成一个中心孔(例如,钾通道,这是四聚体),或一个稳定的支架,支持向外和向内的形式(例如,谷氨酸转运体,这是同源三聚体,和ABC转运体,这是异二聚体)之间的合作过渡。
-具有纤维结构的蛋白
纤维蛋白因为被拉长而具有单一的二级优势结构。例如,胶原蛋白形成了一个三螺旋的右手螺旋线圈,因此它具有很大的机械强度。纤维蛋白序列通常是高度重复的。胶原蛋白有很长的三肽Gly-Pro-X的重复序列,其中X可以是任何氨基酸(图1.25)。世界上很大一部分蛋白质是纤维状的。胶原蛋白是结缔组织的主要蛋白质,是脊椎动物中含量最丰富的蛋白质,占其全身蛋白质含量的25-35%。
图1.25 纤维蛋白由α-螺旋线圈或堆叠的β链制成。它们的机械强度很强,可以扩展到宏观尺寸。胶原蛋白三螺旋是一个右旋超螺旋或卷曲螺旋。这三个螺旋采用了聚脯氨酸II构象,并像绳子上的线一样缠绕着它们的邻居。这种稳定性是由相邻螺旋之间广泛的氢键来维持的。
生物体的机械和承重框架是由纤维蛋白构成的。胶原蛋白组成皮肤、骨骼、牙齿和肌腱的应力承载元素。β-角蛋白是一种双螺旋线圈,存在于皮毛和爪子中。丝绸中的必需蛋白质被称为纤维蛋白;它形成一个β-链。一些纤维蛋白是有弹性的。
例如,弹性蛋白存在于韧带、肺壁和血管壁中,主要由小的非极性氨基酸(Ala、Val、Gly)、Pro和赖氨酸组成,作为弹簧的集合,交联成一个不规则的集合。当至少两个α-螺旋以规则的扭曲相互缠绕时,就会出现螺旋线圈,就像绳子的缠绕一样(见图1.25)。它们是最常见的超二级结构之一,可以包含两个、三个、四个或五个螺旋。组件螺旋可以是反平行或平行排列。图1.25显示了一个由三个螺旋组成的螺旋线圈。卷曲螺旋是普遍存在,发生在转录因子、病毒融合肽和某些tRNA合成酶中。其他的纤维结构也是基于β-链的。丝丝蛋白有一个规则的氨基酸序列重复(GlyGly)-。由于其广泛的β-结构,它具有较高的机械强度。
蚕丝沿着纤维轴很强,因为这是链的共价键的方向。蛋白质偏离“单一天然结构”范式的第三种方式是通过内在紊乱。一些蛋白质的区域本质上是无序的,这意味着链的这些部分在实验结构测定中没有得到很好的定义。有趣的是,内在的紊乱可以发挥功能上的作用。例如,一个带正电荷的本质上无序的蛋白质可以与一个带负电荷的DNA分子结合,导致复合物在结合时形成一个独特的结构,这种现象在结合时被称为折叠。在另一种形式的无序中,蛋白质可以形成熔融的球状状态:相对紧凑的结构具有残留的原生二级结构,但很少有三级结构。
蛋白质有时会形成熔融的球状状态,例如,在酸性的pH值条件下。蛋白质是聚合物链。它们可以折叠成在大小、形状和动力学上都是不同的紧凑状态。它们具有许多不同的生物学功能。不同的蛋白质有20种构建块氨基酸的不同序列。有些氨基酸是非极性的,有些是极性的,有些是带正电荷或负电荷的。不同的氨基酸序列可以折叠成不同的三维形状。折叠蛋白质采用不同层次的结构:二级结构包括螺旋和链;三级结构是在明确的折叠中的二级结构的集合;四元结构由多个链(或亚基)组成。蛋白质可能是球状的,可溶于水,或纤维状的,也可能定位于膜环境中。第二章概述了蛋白质在其三维天然结构和运动中的生物作用。
------------------------------------------------------------------------------
第一章完