Nature Methods | 张阳团队报道从冷冻电镜图构建蛋白质结构新算法

生物大分子如蛋白质、核酸的工作方式和功能执行取决于其独特的三维结构,也就是我们常说的“结构决定功能”。因此,洞悉一个生物大分子的三维结构十分重要。近些年来,冷冻电子显微镜(冷冻电镜,cryo-EM)获得了一系列的硬件和方法上的突破,再加上其本身不需要结晶、可直接观测大分子等的优点,使其获得了结构生物学界的青睐。冷冻电镜就像是给生物分子拍写真集,然后平均做成一张照片,当然照片是三维的,刻画着生物分子的轮廓,称为“电子密度图”。从原理上说, 如果样本的生物分子活泼好动(态空间大),实验得到的电子密度图分辨率就低;反之如果其比较老实巴交(态空间小),电子密度图分辨率就高。然而,尽管部分冷冻电镜实验所获取的电子密度图可以达到2埃的精度,其并不能直接获取生物分子的原子精度的结构。目前,冷冻电镜的数据库EMDataResource就有一半的电子密度图缺少对应的分子结构。因此,如何从电子密度图构建生物分子的三维结构,是一个重要的课题。

2022年2月7日,美国密歇根大学张阳教授团队(第一作者为张曦博士)在Nature Methods发表题为CR-I-TASSER: assemble protein structures from cryo-EM density maps using deep convolutional neural networks的研究论文,开发了针对从电子密度图构建高精度蛋白质结构的新算法CR-I-TASSER。新算法融合了久经沙场的I-TASSER算法以及近年来在图像识别神挡杀神的卷积神经网络,以冷冻电镜电子密度图以及对应氨基酸序列为输入从而构建蛋白的三维结构。CR-I-TASSER的中心思想是先使用卷积神经网络从电子密度图直接预测蛋白质的Cα原子空间构象,并运用此信息最大程度地优化I-TASSER同源建模的模板结构质量;对于缺少模板的蛋白,CR-I-TASSER甚至可以从预测的Cα原子直接构造蛋白骨架。这些高质量的模板或者骨架都会助力于随后的结构模拟,从而获取更高质量的结构模型。

Nature Methods | 张阳团队报道从冷冻电镜图构建蛋白质结构新算法_第1张图片

CR-I-TASSER分成三个阶段,即准备阶段、模板优化阶段以及模拟阶段(图1)。在准备阶段,CR-I-TASSER分别使用DeepMSA和ResPRE预测接触图,使用LOMETS搜集同源模板结构,以及使用卷积神经网络预测Cα原子的空间构象。在模板优化阶段,前面所预测的Cα原子将会用于对LOMETS模板结构的优化和排序,以及直接用于生成蛋白骨架。最后,在模拟阶段,前面的优化后的模板、骨架将会作为模拟的初始构象。通过结合I-TASSER的力场以及最大化构象与电子密度图之间的关联性,CR-I-TASSER将模拟构建尽可能贴合电子密度图轮廓的高精度蛋白质结构模型。

图1. CR-I-TASSER流程图

在这三个阶段中,模板优化阶段是CR-I-TASSER的核心步骤。在这一阶段里,利用预测的Cα原子,作者团队创造了两个算法:1,把LOMETS模板结构叠放于电子密度图中并进行评分筛选;2,直接构造蛋白质的骨架。对于第一个算法,CR-I-TASSER尝试把第一阶段所预测的Cα原子叠放于模板的Cα原子上。由于预测的Cα原子并不包含序列信息,所以无法直接与包含序列信息的模板Cα原子所对应,也就是说在确定对应关系之前,是无法直接用传统的叠放算法如Kabsch进行叠放的。为了解决这个问题,CR-I-TASSER采用了对比不同原子的内部环境的策略:如果两个原子是对应的,那么从这原子出发看本组其他原子(内部环境)也应该比较接近。就这样,在确定了两组原子初始的对应关系后,CR-I-TASSER进行一系列的打分、去噪、聚类与迭代,就能准确确定最终的对应关系,并使用Kabsch算法叠放两组原子。随后,CR-I-TASSER将为每一个叠放好的模板进行打分和排序,力求挑选出更优质的模板结构。鉴于有些蛋白质缺少优质的模板结构,作者团队又设计了第二个算法,即在预测的Cα原子构象上直接构造蛋白骨架。这个算法的关键部分在于作者团队参考了拓扑学中持续同调的概念,设置了从3.8埃到5.5埃的18个距离阈值来生成一系列的Cα原子连接图。通过叠加这些连接图进而计算每个连接的寿命,CR-I-TASSER最终保留了寿命40%以上的片段,并进一步随机连接这些片段。最终,CR-I-TASSER生成一百万条蛋白骨架,在打分函数的挑选下,优质的骨架被挑选出来,与优化的模板一同作为模拟阶段的初始构象。

在论文中,作者团队采集了778个蛋白组成了测试集,并对CR-I-TASSER进行了测试且与其他9个算法进行了比较,结果表明CR-I-TASSER在多个方面(如高、低分辨率;实验、模拟电子密度图;蛋白是否有同源模板结构)超越全部对比组。图2展示了部分测试结果,以及一个如何从预测的Cα原子构象上生成骨架并完全远优于其他对比组的建模例子。此外,论文还讨论了如何从未经分割的大电子密度图出发使用CR-I-TASSER进行建模。总的来说,该研究证明了深度学习可以有效地提取电子密度图中的关键信息,并通过结合传统的生物信息学方法去完成高精度的蛋白质建模

图2. 低分辨率(5-15埃)模拟电子密度图的测试结果。(a,b)CR-I-TASSER比对MAINMAST和MDFF的建模质量。(c-h)CASP13的一个FM蛋白(T1001-D1)的研究例子,其中(g)是最终的连接片段图,以及(h)的CR-I-TASSER最终模型。这里蓝色是天然态结构。

综上,该研究利用深度学习挖掘冷冻电镜电子密度图的原子空间信息,并原创性地提出了优化同源模板、构建蛋白骨架的算法。该研究正在拓展至复合物的建模、超低分辨率的建模等的结构生物学迫切需要的领域,相关研究工作正在进行中。

原文链接

https://www.nature.com/articles/s41592-021-01389-9

服务器链接

https://zhanggroup.org/CR-I-TASSER/

你可能感兴趣的:(最新科技,科研人生,算法,团队开发,人工智能,程序人生)