对蛋白质功能的预测性控制和重新定义的能力已经推动蛋白质工程领域进入了一个前所未有的发展时代。因此,基于计算机的蛋白质设计被预测将为生物技术产业提供下一个飞跃。自然界只采样了约10^12种不同的可能的蛋白质,而一个100个氨基酸的蛋白质有20^100种潜在的序列变化。通过将计算设计融入到生产治疗性蛋白质的工作流程中,研发部门可以利用计算能力的快速发展,在创纪录的时间内设计出精确的功能性新型蛋白质治疗剂。
1 计算蛋白质设计的市场和设计空间
几十年来,蛋白质工程已被用于生产大量工业上适用的酶和其他蛋白质。最近,添加了功能的蛋白质工程已经发现了许多生物医学应用,已有200多种基于蛋白质的疗法上市。基于蛋白质的疗法正在被开发出来,以针对各种传染病和癌症,而工程化的蛋白质也被广泛地应用于食品、生物技术和以材料技术为基础的产业。基于蛋白质的知识和产品的增长,与此同时,辅助研究蛋白质结构和功能的技术也在同步上升。在一个多世纪的蛋白质科学探索中,在实现对蛋白质设计的完全控制的道路上,已经有了几个重要的技术和管理里程碑。
拥有对蛋白质功能的部分预测控制能力和重新定义这些功能的能力,推动蛋白质工程领域进入了一个前所未有的发展时代。自然界只采样了理论上可能的氨基酸序列的一小部分。例如,以天然存在的20种氨基酸为例,一个100个氨基酸的蛋白质可以有20100种不同的序列变化。考虑到蛋白质大小的范围,可能的蛋白质总数可以说是人类无法解释的。而自然界则揭示了1012种不同的蛋白质。这个巨大的差距构成了计算蛋白质设计的画布。
尽管基于结构的蛋白质设计具有巨大的潜力,但95%以上的蛋白质工程仍然是通过筛选进行的,通过插入随机突变并选择那些具有优势的突变。这种方法将产生新的蛋白质,但它们的起源将牢牢地基于自然发生的蛋白质折叠空间。
即使在表面上很小的计算蛋白质设计领域,其范围也有很大的不同,广泛地包括那些通过蛋白质工程产生的蛋白质,其中天然存在的蛋白质被用作骨架。然后,这些蛋白质被工程化,以引入所需的变化,如增加稳定性,或通过与其他现有蛋白质或多肽融合和插入特定突变等过程获得新的功能特性。蛋白质工程填补了随机突变和高通量筛选的黄金标准组合与新蛋白质设计之间的空白,后者的结果是创造出自然界中从未存在过的序列或结构的蛋白质。
这一领域的前沿,经过试验和测试的调整稳定的现有蛋白质以重新利用它们的方法已经被抛弃,现在正在通过从新的蛋白质设计从头开始建立定制的蛋白质。这探索了整个蛋白质序列空间,仅以控制蛋白质折叠的物理相互作用为指导。一旦天然存在的蛋白质被遗弃,可能的蛋白质的规模是巨大的,并且可以实现使用传统筛选方法无法实现的设计。新生蛋白质设计是基于这样的假设:蛋白质总是会折叠成与氨基酸序列所允许的最低自由能状态相关的形状。因此,如果有准确的方法来测量蛋白质链的能量,再加上将此方法应用于不同的结构和序列变体,应该可以识别折叠成新结构的序列。一旦达到所需的形状,就可以通过微小的调整来提高新型蛋白质的稳定性,最大限度地提高所需构型与替代物之间的自由能差异。
De novo protein design作为一种平台技术,有望改变现代药物发现和治疗学开发。最近创造的术语Eroom's定律描述了在研发上花费的资金与成功设计、通过临床试验、获得监管部门批准并提供给消费者的新治疗分子数量之间的反向趋势。通过将从头设计纳入生产治疗性蛋白的工作流程,研发部门反而可以从摩尔定律中获益,利用计算能力的快速发展,在创纪录的时间内设计出准确的功能性新型蛋白治疗药物。
2 基础:蛋白质设计和工程的辅助工具
蛋白质设计策略必须辅以强大的计算结构和功能预测方法。
2.1 结构预测
目前学术界领先的计算蛋白质预测软件包括张阳实验室的I-TASSER、Rosetta Suite和SWISS-MODEL。对这一领域价值和重要性认识的增长,一个迹象是,谷歌以alphafold(一种基于深度学习评分的新结构预测方法)进入2018年版的蛋白质结构预测关键评估(CASP)。
2.2 相互作用预测
尽管这是一个包含众多目标的领域,但与本文最相关的是预测蛋白质或蛋白质与其配体之间的相互作用。这是因为计算蛋白质设计通常是以靶标为中心进行的,无论是抗原、配体还是天然蛋白质。独立的工具如AutoDock、AutoDock Vina和ZDOCK是该领域最先进的工具之一。Rosetta拥有广泛的蛋白质相互作用分析工具。套件中一般的蛋白质-蛋白质相互作用预测框架是RosettaDock,它也是以网络服务器的形式存在。此外,还存在许多用于预测更具体的相互作用的工具。
2.3 分子动力学模拟
分子动力学是一种模拟分子系统在规定时间内动态行为的计算工具。考虑到蛋白质骨架的灵活性及其与周围环境的相互作用,这些工具已被用作蛋白质结构和功能预测的替代方法。分子动态模拟能够显示单个或多个蛋白质在指定环境中的相互作用,这为实验结构提供了一定程度的洞察力,甚至超出了大多数实验方法所能揭示的范围。常用的分子动力学模拟工具包括Amber、Charmm、GROMACS和OpenMM,Hollingsworth等工具。
3 蛋白设计
基于结构的蛋白质设计领域可以根据目的来划分。蛋白质工程或定向进化旨在扩展现有蛋白质的功能,从而向以前未被探索的蛋白质空间迈进。相反,新造蛋白质设计是从一个所需的形状、功能或想法开始的,设计者的任务是将这个想法与决定蛋白质结构和功能的基本物理和化学特性统一起来。
3.1 蛋白质工程
随机突变和筛选的过程代表了这个领域的起源。这种蛋白质修饰方法直接导致了医学科学的重大进步,包括来自其他动物物种的抗体的人性化,这需要将野生型抗体修饰成与人类抗体相似的抗体,同时保留原有的功能。但是,这种方法在筛选大量序列变异体时受到能力限制,一般来说,需要蛋白质和配体之间有一定的亲和力作为基础。在昂贵且耗时的实验室筛选之前,计算技术的引入最初几乎可以进行变异的筛选。此后,这种方法已经发展成为利用现有的蛋白质作为骨架进行新型构建的稳健设计。
RosettaLigand是抗体随机突变和筛选过程的一个计算延伸的例子。现有的蛋白质结合位点可以被工程化,成为新的靶点特异性。一个类似的工具RosettaRemodel,可以预测现有蛋白质结构在氨基酸序列插入、缺失或修改后的结构变化。该工具更高级的用途是可以进行新的设计。
计算蛋白质工程是很方便的,因为它提供了一个蛋白质骨架的起点,特别是当所需的效果代表了蛋白质功能的微小改变时。当大量的氨基酸被改变时,这就变得很复杂,因为结构也不可避免地会被改变。许多情况下,原生蛋白只有轻微的稳定性,因此即使是微小的序列变化也会导致剧烈的变化,如聚集或展开。这些剧烈的变化可以通过SCHEMA等算法来缓解,SCHEMA是一种评分函数,用于预测同源蛋白内哪些元素可以互换,而不会对蛋白的整体结构完整性造成干扰。
早在1995年,基金会对蛋白质工程的研究就涉及重新设计具有稳定、疏水核心的现有蛋白质。诸如此类的研究使该领域取得了进展,以至于现在蛋白质工程在疫苗开发和设计新的催化活性的酶方面取得了突破性的进展,关于庞大的金属蛋白家族的工作就是一个例子。
3.2 全新蛋白设计
全新蛋白质设计的直观方案很少,因此,计算生物学和蛋白质结构科学的专业知识是进行设计的最低要求。一些程序利用现有的知识创建了一个框架,在这个框架内,非专家设计新蛋白是可能的。Rosetta Suite对于有经验的用户来说,在新蛋白设计方面有着巨大的能力。对于非专业用户来说,有一些基于片段的设计协议。这涉及到将已知结构的几个蛋白质区域的部分组合起来,形成一个新的骨架。由于这种方法使用已经表征的蛋白质作为构建模块,它可以采样的构象空间有限。这种基于片段的设计可以使用RosettaRemodel等工具进行。
Intelligent System for Analysis, Model Building And Rational Design (ISAMBARD)是Wood等人开发的一套工具,目的是促进新造蛋白质和结构的合理设计,并随后评估其可行性。作者提供了 "一个进入蛋白质折叠空间暗物质的起点"。最近的一个令人兴奋的发展是由Zhou和其他工作人员开发的dTERMen工具。该工具直接输入所需的蛋白质结构,并生成与之匹配的氨基酸序列。该序列是通过计算每个氨基酸和氨基酸对的能量参数,根据PDB数据库中现有结构中的氨基酸位置和相互作用生成的。
该领域的第一个里程碑式的成功是在1988年,一个单体螺旋蛋白的增量设计。这是第一个将新的氨基酸序列组装起来,形成预定结构的例子。2003年,在结构预测和序列设计之间递归循环的策略使Top7的设计成为可能,Top7是一种具有完全新颖序列和拓扑结构的93个核苷酸蛋白质。目前的技术状态包括各种项目,这些项目模仿并经常改进现有的蛋白质,同时具有最小的序列一致性。
最近的其他重大突破包括以下几个例子。(一)从新设计自组装淀粉样结构,即一种密集的交叉α-淀粉样肽,以及能够可逆组装的轻包装螺旋聚合物。这些构建体在生物技术中具有相当大的应用潜力,例如,在体内诱导新型功能蛋白域的组装。通过这些蛋白质的设计,对蛋白质的结构、功能和聚集成淀粉样蛋白也有了相当深入的了解,而淀粉样蛋白参与了众多神经退行性疾病,如阿尔茨海默病。(二)生物活性蛋白开关的全新设计、分子间和分子内力的平衡,使蛋白质在外界刺激下改变形状和功能。LOCKR是一个由5个α-螺旋组成的全向调节的笼子,默认情况下,它与第6个末端螺旋相互作用,可以编码出各种功能特性。笼子可以被设计成与特定的大分子靶点(如抗原)相互作用,当这种情况发生时,末端螺旋从笼子内移位,激活蛋白质。这个平台在合成和细胞生物学方面具有巨大的潜力,一个早期的例子是degronLOCKR的延伸,功能性末端螺旋从笼子中位移后会降解感兴趣的蛋白质。(三)全新设计最小化蛋白,保留了更大的二铁和二锰蛋白的功能,催化了许多反应。这些设计的蛋白质,特别是催化剂的新设计,正变得至关重要,以弥补自然界有限的催化品种和合成化学快速发展的要求之间的差距。
4 最新进展和当前挑战
4.1 参数化蛋白设计
蛋白质设计的一个关键挑战是如何制定参数方程,以最小的信息损失捕捉蛋白质折叠过程中的基本相互作用。现在,这对于螺旋重复蛋白来说是可能的,这使得这些蛋白的设计和建模变得可靠。尽管α-螺旋线只占天然存在的蛋白质的~5%,但在成功的新生蛋白质中,α-螺旋的特点是突出的。随着越来越多的蛋白质二级结构被参数化,可靠地设计更多种类的新生构建体将成为可能。新生蛋白质设计有可能揭示氨基酸折叠能力的全部潜力。遗憾的是,对已知二级结构的参数化描述还不足以揭示这种潜力。对于更复杂的不对称或非重复结构,参数化迄今被证明是难以实现的,这意味着需要另一种方法来探索蛋白质折叠空间的全部范围。
4.2 大数据与蛋白设计
5 研究人员与蛋白设计师之间的差距
5.1 蛋白质生产和测试成本
合成生物学的出现使DNA测序和分析的相关成本大幅下降。这对降低研究DNA和依赖合成DNA的技术和产品的研究成本产生了深远的影响。测序的小型化和便携式设备、PCR的手持式替代品、分光光度计使基于DNA的技术部署到了商业环境中。相比之下,基于蛋白质的技术正在进行一场 "追赶游戏"。对大型仪器的依赖,如核磁共振、X射线晶体学、基于低温电镜的方法,以及涉及昂贵试剂的传统测试方法,以及缺乏强大和负担得起的体外测试系统,是需要克服的一些障碍。
5.2计算工具的可靠性
蛋白质的计算设计正变得越来越可靠,即使所设计的蛋白质变得更加复杂。新生蛋白质的结构和功能验证以及它们的结晶表征加强了这种情况。对于迄今为止已经成功参数化的设计蛋白褶皱来说,情况尤其如此。其次,依赖于数据库的计算工具的有效性,特别是对于试图预测新设计的蛋白质结构,是相关数据库的大小和可用处理能力的函数。自2010年以来,实验解决的蛋白质结构的PDB数据库的规模几乎增加了三倍,而可用的计算能力继续以接近指数的速度增长。这反映在全社会的CASP、Critical Assessment of PRediction of Interactions (CAPRI) ,以及Continuous Automated Model EvaluatiOn (CAMEO)的研究结果中,这些研究结果让研究人员大致了解到随着时间的推移,计算蛋白质工具的准确性在不断提高。
5.3合成蛋白的可部署性
合成蛋白质技术的应用与食品工业、材料技术和生物医学等众多领域息息相关。新生蛋白质设计的出现极大地增加了潜在蛋白质结构的范围。合成生物学的发展促进了基于实验室的新型科学概念转化为可部署的、商业上可行的产品。商业可行性要求将科学成果转化为可部署的产品。例如,基于蛋白质的诊断工具还需要适当的检测硬件,以及分析和报告结果的软件。市面上的妊娠检测试剂盒、尿液监测条和其他过敏检测试剂盒就是一些成功利用跨学科技术设计出涉及蛋白质部署的商业可行产品的例子。对于这些以实验室为基础的概念转变为以商业或消费者为基础的环境,可部署性因素变得至关重要。跨学科研发方法有助于在早期开发阶段形成连接科学概念和消费者的桥梁。随着合成设计蛋白领域的成熟,建立一个以消费者为中心的应用生态系统,并具有有效的可部署性,将是蛋白质产品商业化转型的关键。
5.4 规章制度和道德规范
考虑到典型蛋白质的终端状态,使用纯化的工程蛋白质比使用基因工程DNA的 "活 "产品具有更低的环境、食品和药物监管障碍。尽管如此,工程抗体的免疫治疗、CAR-T细胞技术、CRISPR-Cas9、基于蛋白质的自身免疫性疾病药物以及基因治疗等,都有多种形式的蛋白质工程作为关键的组成部分,并一直是科学伦理和政策制定中的一个话题。自基因工程诞生之初,拥有对生物设计的控制权和重新创造/重新设计生命的能力一直是一个明确的目标。商业和伦理障碍提供了必要的张力,将科学创造力控制在其最有用的用途范围内,这种科学创造力和伦理怀疑主义之间的张力正在产生一系列有能力改善世界的产品,包括基于蛋白质的产品。然而,世界上不同地区对生物产品的适应和接受程度不同,其谨慎程度也不同。与欧洲相比,美国通过提供较宽松的法规走在前面。欧洲的GMO立法表明了新的生物技术公司必须克服的监管。据估计,由于欧洲转基因生物立法的监管负担而造成的投资、工作和高技能工人的损失达数十亿。这也可能是美国的生态系统对生命科学初创企业更成功的原因之一。随着合成设计蛋白商业潜力的上升,以及为解决气候变化、健康监测、传染病筛查、治疗和预防等重大全球问题提供生物解决方案的必要性,合成蛋白技术正在进入一个有趣的阶段。
5.5专业知识和计算能力的可用性?
正如这篇文章阐述的那样,在合成蛋白质的设计方面,实现目的的巨大转变所需的软件和硬件是可用的。这一点已经得到了全面的证明。这种方法没有成为主流有两个关键原因。首先,计算能力的可用性是这方面的一个主要瓶颈。计算集群是生产规模的蛋白质建模、相互作用或设计模拟所必需的,而合成生物学实验室很少有这种规模的计算能力。亚马逊网络服务等云计算设施的功能越来越多,可以提供一种经济实惠的解决方案。其次,所需知识的集中是一个障碍,因为需要计算生物学和结构生物化学方面的专业知识。蛋白质设计的高水平概述是可用的。由于缺乏直观的工作流程,导致从头开始的蛋白质设计集中在少数实验室和公司。为了解决这个问题,ISAMBARD和Rosetta现在都提供了通用框架,为研究人员提供了一条成功的计算蛋白质设计的连贯途径。
6 结语
计算蛋白质设计为基于蛋白质的新型应用打开了大门,它将对食品、医药、环境和材料技术产生影响。目前已有大量的计算工具来促进这项工作,而将这种计算工具扩展到针对特定任务的定制蛋白质构象设计的潜力,将在未来几年内给许多科学领域带来革命性的变化。
计算蛋白质工程已经在大多数合成生物学实验室的能力范围内。新生蛋白质设计同样是可能的,但也有一些局限性。随着每一个成功设计的新蛋白,更多关于蛋白质折叠性质的信息被揭示出来,因此,何时能获得蛋白质折叠空间的全部潜力是个问题,而不是是否能获得。因此,他们的关键挑战不是研究或监管方面的障碍,而是需要研究界对计算蛋白质设计的观念转变。
为了促进这一点,下一轮的研究应该包括努力将本文中概述的一种或多种计算设计的功能蛋白应用于治疗或诊断一种高知名度的疾病。具有易于重新设计的活性位点的功能蛋白将成为对抗新型新病原体的多功能工具。最近在计算蛋白质设计的大数据方法方面的进展指出了一个未来,在这个未来,一个大规模并行的新蛋白质设计与高通量基因合成一起工作,在给定参数内产生大量的新型蛋白质库。这将取代即将实现的基于蛋白质的功能性大分子的定制设计,取而代之的是具有巨大功能潜力的数据库,可以通过机器学习算法查询,为所需任务找到最佳可能的蛋白质折叠。
随着对特异性合成蛋白质的商业兴趣的上升,现在的格局将释放其巨大的潜力。设计者合成蛋白质的前景可能会或可能不会反映在直接的经济评估中,可能需要新的衡量标准来衡量在生活质量和可持续性方面的好处。尽管如此,未来几年,将观察到一场可能对人类生活产生持久影响的蛋白质设计计算革命。
参考文献:
Sidney P. Walker, Venkata V.B. Yallapragada, Mark Tangney. Arming Yourself for The In Silico Protein Design Revolution. Trends in Biotechnology, 39:651-664 2021