2022-01-25

Nat Rev Genet | 基于遗传学建模的蛋白相互作用补充传统结构生物学方法

原创 huacishu 图灵基因 2022-01-25 09:20

收录于话题#前沿生物大数据分析

撰文:huacishu

IF=53.244

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者回顾了大规模遗传数据集和深度学习方法在蛋白质结构及其相互作用建模中的应用,并讨论了不同来源结构数据的整合;

2、基于遗传学的建模产生的正交数据集被用来补充传统的结构生物学方法,以提供体内蛋白质结构的更准确和完整的描述。


美国加州大学Nevan J. Krogan教授课题组在国际知名期刊Nat Rev Genet在线发表题为“From systems to structure -using genetic data to model protein structures”的论文。理解遗传变异的影响是生物学中的一个重要问题,需要在系统范围和机械尺度上分析序列变化的物理和功能后果的方法。为了实现一个系统的视图,蛋白质相互作用网络映射哪些蛋白质物理上相互作用,而基因相互作用网络则告知干扰这些蛋白质相互作用的表型结果。直到最近,了解这些相互作用的分子机制通常需要生物物理方法来确定所涉及蛋白质的结构。在过去的十年中,出现了基于共同进化、深度突变扫描和基因组尺度遗传或化学-遗传相互作用的新方法,从而能够对单个蛋白质或蛋白质复合物的结构进行建模。在此,作者回顾了大规模遗传数据集和深度学习方法在蛋白质结构及其相互作用建模中的应用,并讨论了不同来源结构数据的整合。

解读群体内和群体间遗传变异的功能结果是生物学的一个基本问题。为了解决这一问题,需要结合各种技术来查询系统范围和机械尺度上的变化(图1)。系统范围的方法提供了一个高层次的视图,并生成描述不同蛋白质或基因如何相互关联或与环境扰动相关的网络。事实证明,这种网络信息量大,能够对蛋白质进行功能注释,并传递有关整个生物系统结构的信息。蛋白质-蛋白质相互作用(PPI)网络描述哪些蛋白质相互作用(图1a)。测定PPI的实验方法包括亲和纯化-质谱(AP-MS)、酵母双杂交(Y2H)筛选和蛋白质分离。AP–MS和蛋白质分级识别在感兴趣的细胞类型中一起形成复合物的蛋白质,而Y2H使用酵母报告系统识别二元相互作用。PPI网络描述的是处于物理接触状态但缺乏分辨机制的蛋白质,这通常需要了解蛋白质的结构及其形成的复合物。通常,使用生物物理方法确定高分辨率蛋白质结构,如X射线晶体学、低温电子显微镜(cryo EM)和NMR光谱(图1b)。这些方法是阐明蛋白质机制和设计结合活性位点或破坏PPI的药物的关键。然而,传统的结构生物学方法往往耗时且依赖于相关蛋白质的纯化,这并不总是可行的。PPI作图和传统的结构生物学以蛋白质及其物理属性为中心。遗传方法通过测量扰动蛋白质或PPI网络的表型结果提供功能背景。描述不同基因突变如何相互影响的遗传相互作用的特征已被证明是PPI网络的一个特别有用的补充。遗传相互作用的系统绘图能够生成功能性相互作用网络,阐明PPI的生物学目的(图1c)。在过去十年中,遗传相互作用图谱和共同进化相关领域的发展(研究蛋白质残基如何共同进化)使结构生物学得以在遗传基础上进行研究。通过识别通过遗传相互作用或共同进化相关的成对残基,这些方法提供了高分辨率的功能信息,足以模拟蛋白质及其复合物的结构(图1c)。在这篇综述中,作者描述了共同进化和遗传互作作图的基本原理,并概述了这些方法在过去几十年中是如何发展的。讨论了技术进步和蛋白质序列数据库的增长如何使这些方法的应用能够为蛋白质和蛋白质复合物的结构建模提供信息。作者还描述了化学-遗传相互作用作图,它与遗传相互作用作图密切相关,同样也被用于结构建模。

在过去的十年中,局部模型已经被全局模型所取代,全局模型认识到相关残基对是相互依赖的,并且进一步考虑了单个残基的守恒性。全局模型能够区分直接耦合的残基对和那些应排除在分析之外的残基对,因为它们是间接耦合的。关键的是,这些技术进步伴随着UniProt等蛋白质序列数据库的快速增长,增加了蛋白质家族成员之间序列空间的覆盖率,并使原核生物在残基水平上的进化的系统比较成为可能。总之,这些进展为使用共同进化来模拟单个蛋白质的结构铺平了道路。利用共同进化首次成功测定蛋白质折叠是通过EVfold实现的,随后是其他方法,如DCA折叠和GREMLIN(图2a)。用于确定蛋白质内残基-残基接触的共同进化原理也可用于确定蛋白质之间的残基-残基接触。然而,一个关键的挑战在于识别直系同源体,以产生量化两种蛋白质残基之间的共同进化所需的成对多序列比对。只有包含两种相互作用蛋白质的生物体才能用于多重序列比对,并且相互作用对必须在每个物种中正确配对,如果蛋白质具有执行其他细胞功能的同源物,这尤其困难。为了预测PPI并对其界面进行建模(图2b),大多数研究将其范围限制在可能根据特定标准相互作用的蛋白质对上。例如,一些研究集中于在保守的基因组位置(例如,在同一操纵子上)彼此紧密编码的蛋白质对,或已知成员相互作用的蛋白质家族对。尽管这些研究表明,共同进化原则上可用于PPI的系统鉴定,但无偏和蛋白质组预测的扩展性挑战使得这在实践中不可行。最近的一项工作通过结合使用共同进化技术系统地鉴定大肠杆菌和结核分枝杆菌中的PPI来应对这些挑战。通过量化两种生物体中数百万蛋白质对的残基对的共同进化,发现了数百种以前未被鉴定的PPI。高计算要求通过一个多步骤协议进行管理,该协议包括使用本地模型进行更快的预筛选,然后是全局模型和结构模型,以确定最高置信度的交互者。这项研究表明,在二元配合物中,协同进化是非常有效的PPI预测方法,但在高阶配合物或含有核酸的配合物中,协同进化的预测效果较差。共同进化已被证明是确定蛋白质及其复合物结构的有力工具。最近开发了一种实验方法(3Dseq),目的是利用实验室中产生的蛋白质序列变异来确定共进化残基,并随后应用计算共进化方法进行结构建模。该方法依赖于使用易出错PCR和暴露于选择基因功能变体的培养基中反复产生给定基因的突变(图2c)。对选定的种群进行深度测序,并通过在整个种群中进行比较来确定共同进化的残基对,从而允许使用与自然共同进化相同的原理来推断残基耦合和结构建模。该方法应用于大肠杆菌中表达的假单胞菌-β-内酰胺酶PSE1和乙酰转移酶AAC6-的两种抗生素耐药蛋白,通过氨苄西林对PSE1进行功能选择,卡那霉素对AAC6进行功能选择,从而获得两种结构的精确高分辨率模型。由于3Dseq不依赖于自然变异,因此它特别适合于缺乏自然共同进化建模所需的大量家族成员的蛋白质。

对于大多数生物,如智人、芽胞酵母或大肠杆菌,任何给定的基因通常只与少量其他基因直接功能相关。因此,当删除或以其他方式干扰两个不同的基因时,细胞反应通常会反映这两个基因作为独立贡献的综合效应。基因间的相互作用发生在反应偏离这一预期的基因之间,表明这些基因在功能上是相关的。遗传相互作用可以通过多个表型读数来测量,但通常以细胞复制和存活为中心,因为这可以为大多数系统提供信息,包括单细胞生物和人类癌细胞。这可能表明因子在同一途径中起作用,或者是同一非必需复合体的亚单位。相反,当两个基因的突变导致比预期更严重的生长缺陷时,就会发生负的遗传相互作用。这可能反映了在平行途径中起作用的因子,或者是同一必需蛋白复合物的非必需亚单位(图3a)。化学-遗传相互作用,类似于遗传相互作用,描述药物或环境扰动的存在或不存在如何影响单个基因突变的表型。在这里,正相互作用反映了药物治疗对突变表型的影响比预期的要小,这可能表明药物抑制了突变基因发挥作用的途径。相反,当存在药物的突变效应比预期的更严重时,会出现负化学-遗传相互作用,这可能表明药物抑制平行途径(图3b)。E-MAP引入了捕获正遗传相互作用的能力,该图谱在SGA上扩展,以高通量的形式提供整个遗传相互作用谱的定量测量。这种方法能够为每个测试突变体生成一个连续的遗传交互图谱,包括其在所有缺失文库突变体中的得分;这些图谱可用于将功能相关或属于同一复合体的蛋白质组合在一起(图3c)。

与协同进化相似,遗传相互作用数据被用于蛋白质及其配合物的结构建模。关键的挑战仍然是如何推导出可用于建模的两对残基之间的空间约束。pE MAP和DMS为此提供了互补优势。例如,DMS可以提供蛋白质中所有可能的残留-残留组合的综合遗传相互作用测量。事实上,这些细粒度数据可以用于建模小蛋白质或域的二级结构和三级结构(图4a、b)。两组分别从GB1 DMS扫描、出芽酵母PAB1蛋白RRM2区、人YAP65 WW区和异二聚体FOS-JUN的基因相互作用数据进行了检测。作者利用这些研究中的遗传相互作用数据预测各蛋白质域中残基对之间的结构接触,并对结构接触进行了预测。GB1数据集是最全面的,覆盖了55个残基中几乎所有可能的突变对,这使得残留接触的确定和域的二级和三级结构的精确建模成为可能。RRM2和WW域数据集仅覆盖了可能的双突变体的一小部分。虽然这些数据集可以进行接触预测,但二级结构预测并不准确。WW域22–24残基部分的折叠可以建模;但是,RRM2域折叠无法建模。这些发现突出了DMS作为一种结构生物学工具的潜力,其他研究也进一步应用于揭示本质无序蛋白质的结构特征。DMS非常适合模拟小蛋白质和结构域的结构,而pE-MAP方法更适合确定蛋白质组装体的结构。pE-MAP的覆盖率比DMS低,但可以在单个屏幕上比较任意数量的相互作用蛋白质的残基之间的遗传相互作用,这有助于相互作用的建模。此外,pE图谱通过其与数千个不同途径和过程中的其他突变体的遗传相互作用谱,为每个突变残基提供了系统范围的细胞信息。最近的一项研究利用pE图谱和化学-遗传相互作用数据来确定蛋白质复合物的结构(图4c)。

为了更好地补充完善计算方法,有必要提高实验遗传方法的速度和覆盖面。CRISPR–Cas9基因组编辑的进展为此类发展奠定了基础。例如,化学-遗传相互作用图谱用于在酵母蛋白质组大范围内模拟PPI,使用最新方法有效产生点突变,同时以多重方式测量其药物敏感性。在全球PPI图谱的指导下,使用传统结构生物学方法或AlphaFold/RoseTTAFold中的单个蛋白质结构,该系统原则上应能够模拟酵母蛋白质组中的相互作用界面结构。CRISPR–Cas9基因组编辑还可用于哺乳动物细胞点突变的系统生成。目前,由于编辑不完整、靶外效应或其他技术障碍,这些方法不适用于哺乳动物pE图筛选。然而,这些限制正在稳步减少,为基于遗传学的人类细胞蛋白质复合物结构建模奠定了基础,并提供了表征致病突变影响的手段。通过与最近生成整个细胞的多尺度模型的努力相结合,遗传相互作用图谱可以提供关于整体功能以及蛋白质复合物结构的信息。在人类系统中,最关键、也是目前最容易处理的应用之一涉及迅速增长的宿主-病原体相互作用图谱领域。这一研究领域集中于病原体和宿主蛋白质之间PPI的系统识别以及两种生物体之间相互作用网络的生成(图5a)。这些网络已被证明对询问感染机制非常有效,揭示了病原体生命周期、宿主因子功能和宿主-病原体相互作用的重要方面,并为药物发现提供了潜在靶点。宿主-病原体PPI网络可作为病原体点突变体和人类基因敲除或敲除之间遗传相互作用图谱的蓝图。为了生成这些图谱,人类细胞将被携带相关点突变的病毒感染,PPI图谱中的人类蛋白质将被敲除(图5b),从而构建宿主-病原体遗传相互作用图谱(图5c)。然后,病毒点突变体的遗传相互作用图谱将转换为空间限制,用于病毒蛋白复合物的结构建模(图5d),最终将重新整合到PPI图谱中。这些努力所需的平台最近已经开发出来。例如,一种利用传染性作为读数生成病毒E图(vE图)的技术最近被应用于人类细胞中的艾滋病毒感染。以类似的方式,通过采用合适的选择分析,DMS可用于模拟单个病毒蛋白。遗传相互作用驱动的病原体蛋白质结构建模将为确定这些变化的机制提供途径,为治疗干预奠定基础。

利用遗传衍生的限制对蛋白质和蛋白质复合物进行结构建模是网络生物学和结构生物学的交叉点。直到最近,这些主要的研究领域是完全不同的,几乎没有重叠。网络生物学提供了细胞过程内部和之间相互作用的大规模系统视图,而结构生物学提供了单个蛋白质和复合物的结构,通常是在体外获得的。基于遗传学的结构建模使用从功能数据(如共同进化或遗传相互作用)衍生的空间约束来计算结构模型。这些方法效率高、成本低,能够对蛋白质相互作用界面进行结构表征,有可能涵盖整个蛋白质-蛋白质相互作用组,包括宿主-病原体系统的蛋白质-蛋白质相互作用组。这些技术并不意味着要取代传统的结构生物学方法,后者在分辨率方面仍然是金标准。相反,基于遗传学的建模产生的正交数据集被用来补充传统的结构生物学方法,以提供体内蛋白质结构的更准确和完整的描述。

 

教授介绍



Krogan博士出生于加拿大,并获得了多伦多大学的博士学位。Krogan博士在加州大学旧金山分校的实验室致力于开发和应用定量、系统的蛋白质组学和遗传学方法来研究复杂的生物学和生物医学问题。目前,Krogan小组专注于研究癌症、传染病和精神疾病。他的研究集中在基本的生物学机制上,因为许多疾病的治疗方法都是由基础科学的意外发现揭示出来的。支持蛋白质相互作用、蛋白质修饰和组合基因缺失效应的无偏研究的补充技术有助于我们进行有针对性的机制和结构研究,进一步为药物开发铺平道路。

参考文献

Braberg H, Echeverria I, Kaake RM, Sali A, Krogan NJ. From systems tostructure - using genetic data to model protein structures. Nat Rev Genet.2022;1-13. doi:10.1038/s41576-021-00441-w

你可能感兴趣的:(2022-01-25)