voronoi图_ProteinGCN | 使用图卷积网络表示学习蛋白质结构

voronoi图_ProteinGCN | 使用图卷积网络表示学习蛋白质结构_第1张图片

对蛋白质结构模型准确性局部(单残基)和全局(整个结构)的预测是许多蛋白质建模应用程序中必不可少的步骤。随着最近深度学习技术的发展,单模型质量评估的方法也已经能通过使用2D和3D卷积深度神经网络取得了进展。

今天给大家介绍的是印度科学研究所Partha Talukdar课题组在BioRxiv杂志上发表的一篇关于蛋白质模型质量评估的文章。在文中,作者探索了一种可替代的方法,在包含2897个蛋白300k个结构的Rosetta-300k数据集上训练图卷积网络,结果表明该网络—ProteinGCN,在局部和全局蛋白质模型预测中都达到了最好的精度水平。此外,与3D卷积网络相比,ProteinGCN中的参数数量几乎少了1-2个数量级。

1.介绍

尽管研究者最近在GASP13实验中已经取得了一定的进展,但是蛋白质结构预测仍然是一个具有挑战性的问题。评分函数是建模的关键组成部分,它允许对假定的模型进行适当的排序,并选择符合原始结构的模型。估算全局和局部的每个残基的得分也相当重要,这对于随后进行的蛋白质结构细化尤为有用。

现在研究者已开发出各种方法来解决打分问题,其范围包括从一般物理原理,或从已知蛋白质结构的各种不同集合,或从这两者推导而来的。经训练后,以估算特定相似分数之间的转换,直接从前者的原子坐标中计算得出结果。此外,还存在将上述一个或多个得分与其他生物学数据相结合的元方法。

大多数评分方法中由于原子间相互作用的局限,只有空间相邻的原子或残基才有助于质量得分。为了解决模型质量估计的问题,可以将结构投影到3D网格上,并使用3D卷积将这种体素化表示形式转换为质量得分。

另一种更好的蛋白质分子的表达方式即通过一个图,用节点代表的原子,边连接在临近的原子对上,这种表示方法具有旋转不变性。在这项工作中,明确考虑了原子间的取向,并将其扩展应用到了蛋白质模型质量评估的问题当中。

2.背景

2.1 图形卷积网络

作者使用基于相邻顶点的传播算法来获得每个顶点的表示向量:

d8f6545c4ae72e0228d2dcbe730b801a.png

2.2蛋白质GCN

给定蛋白质结构,用节点表示蛋白质中各种非氢原子的组成部分。每个节点原子的K个最近邻,用边连接起来。20种氨基酸里面的重原子,共有167种类型,采用one-hot进行编码。采用边距离、边坐标(反应原子间的方向性)、边属性作为边的特征。首先生成蛋白质图,使用GCN来学习原子嵌入。通过合并原子嵌入以生成残基级嵌入,残差嵌入通过非线性完全连接层以预测局部得分。此外,将残基嵌入合并以产生整体蛋白嵌入,用于预测全局得分。

voronoi图_ProteinGCN | 使用图卷积网络表示学习蛋白质结构_第2张图片
图1:ProteinGCN概述

3.实验

3.1蛋白质数据集

作者在实验中使用两个蛋白质数据集。如下:

Rosetta-300k:用于训练的主要蛋白质组由2897条蛋白质链组成,长度从50到300个残基不等,分辨率不超过2.5A。对于每个蛋白质链,使用RosettaCM协议进行双空间松弛生成了100种不同准确性的同源结构。

CASP13:此集合包括CASP13中提交的针对80种目标蛋白,每种蛋白150个的经过筛选的预测模型。类似于Rosetta-300k数据集,所有模型都在Rosetta中进行了双空间松弛,以减轻不同服务器之间建模过程中可能存在的差异,并与训练集中的模型进行了合并。

3.2基准线

为了比较ProteinGCN的性能,作者使用以下基线:

VoroMQA:它通过为蛋白质模型中的原子集构建Voronoi来估计蛋白质质量,然后使用派生的原子间接触面积在原子、残基和全局水平上得出分数。

Ornate:通过深度3D卷积神经网络从局部3D密度图预测残基的lDDT分数。ProteinGCN-Base:这是ProteinGCN的变体,只使用边缘坐标[EC]作为边缘特征,还限制仅使用残基级别的损失函数,其结果可直接与Ornate媲美。

3.3评估

使用平均绝对误差(MAE)准确性指标评估训练期间的分数,并利用皮尔逊相关系数用于测量蛋白质QA的参考lDDT和预测lDDT得分之间的线性关系,最后,根据预测值和真实值之间的差异了解预测结构与真实结构的接近程度。

4.结果

4.1性能比较

为了评估ProteinGCN的有效性,作者将其与现有蛋白质质量评估基线模型将进行了比较。结果总结在表1中,作者发现ProteinGCN的性能大大优于两个数据集上的所有基线。此外,ProteinGCN-Base的结果优于Ornate,即使它们使用相同的特征集。两种模型之间的主要区别在于,与Ornate中的3D-CNN相比,ProteinGCN-Base中使用的为GCN。这表明,与3D-CNN相比,GCN更适合于蛋白质结构模型。

voronoi图_ProteinGCN | 使用图卷积网络表示学习蛋白质结构_第3张图片

4.2消融研究

为了进一步评估ProteinGCN模型中各种边缘特征和损失项的影响,作者对Rosetta-300k和CASP13中描述的两个数据集进行了消融研究。通过从ProteinGCN模型中依次删除一些功能,并在两个数据集中评估了其性能。研究结果表明,消除全局损失会导致两个数据集的性能显着下降。而且,提取边坐标信息会提高局部预测的效果,表明了提取边缘方向特征的有效性。

voronoi图_ProteinGCN | 使用图卷积网络表示学习蛋白质结构_第4张图片

4.3定性分析

为了更好地了解ProteinGCN的性能,作者对模型对样品蛋白质靶标的预测进行了定量分析。如图2所示,预测的全局分数能够指示真实结构和预测结构之间的相似性,这对从诱饵池中选择最佳模型非常有意义。通过在三个不同的全局准确度级别上选择三个模型,并将预测的局部残差lDDT得分(以彩色显示)与参考得分(以灰色表示)进行比较,来检查局部得分的准确程度。结果表明,尽管全局分数存在差异,ProteinGCN仍可以正确捕获局部分数的趋势;这样可以选择蛋白质模型中最不准确的区域,并对其进一步完善。

voronoi图_ProteinGCN | 使用图卷积网络表示学习蛋白质结构_第5张图片
图2:ProteinGCN对CASP13目标T1008的性能的定性分析

5.结论

在这项工作中,作者提出了蛋白质GCN——用于蛋白质模型质量评估任务的第一个图神经网络框架。除了通过图卷积公式捕获局部结构信息外,蛋白质GCN还能够有效利用原子间取向和距离。此外,与最先进的基准Ornate相比,蛋白质GCN还利用了少20倍的可学习网络参数。通过在两个数据集上进行的广泛实验,表明了所提出方法相对于先前基准的优越性。

代码

https://github.com/malllabiisc/ProteinGCN

参考资料

https://www.biorxiv.org/content/10.1101/2020.04.06.028266v1

voronoi图_ProteinGCN | 使用图卷积网络表示学习蛋白质结构_第6张图片

你可能感兴趣的:(voronoi图)