【独家解读】Nature论文AlphaFold:AI推动科学发现

“独家解读,听听他人的声音”,聆听他人的学术成长经历,对科研问题独到的见解,了解产业界的最新进展,相互学习、相互借鉴、集思广益、共同进步。为此,我们特别开辟“独家解读”专栏,让你在科研道路上与时俱进,打开新世界的大门,敬请关注。

人工智能前沿讲习编译

原标题:AlphaFold: Using AI for scientific discovery

作者:Andrew Senior,John Jumper,Demis Hassabis,Pushmeet Kohli

原链接:https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery

在近期发表于Nature杂志上的研究中,我们展示了人工智能的研究如何驱动和加速新的科学发现。我们已经建立了一个专门的跨学科团队,希望利用AI来推动基础研究的发展:召集结构生物学,物理学和机器学习领域的专家,共同运用前沿技术来实现仅根据遗传序列预测蛋白质的3D结构。

我们的系统AlphaFold是多年工作的结晶,它建立在数十年来使用大型基因组数据集预测蛋白质结构的研究的基础上。AlphaFold生成的蛋白质3D模型比以前的任何一种都要精确得多,这标志着生物学的一项核心挑战取得了重大进展。Github上提供了CASP13上使用的AlphaFold代码1,供有兴趣了解更多信息或复现我们的结果的任何人使用。这项工作已经启发了其他独立的实现,包括我们的论文2中所描述的模型,以及社区构建的开源实现3(详见此处2),我们也为此感到兴奋。

01

What is the protein folding problem?

蛋白质是生命中必不可少的大而复杂的分子。人体执行的每一项功能(收缩肌肉,感知光线或将食物转化为能量)几乎都取决于蛋白质以及蛋白质的移动和变化方式。任何给定的蛋白质可以做什么取决于其独特的3D结构。例如,我们的免疫系统利用的抗体蛋白为“ Y形”,并形成独特的钩状。通过锁定病毒和细菌,这些抗体蛋白能够检测并标记引起疾病的微生物以进行消除。胶原蛋白的形状像绳索,可以在软骨,韧带,骨骼和皮肤之间传递张力。其他类型的蛋白质包括Cas9,Cas9以CRISPR序列为指导,像剪刀一样剪切和粘贴DNA片段。还有抗冻蛋白,其3D结构使它们能够与冰晶结合并防止生物冻结。而核糖体的作用类似于程序化的装配线,有助于自身构建蛋白质。

这些蛋白质的配方(称为基因)在我们的DNA中编码。基因配方的错误可能会导致蛋白质畸形,从而可能导致生物体疾病或死亡。因此,许多疾病从根本上与蛋白质有关。但是,仅仅知道蛋白质的基因配方并不意味着能够自动知道其形状。蛋白质由氨基酸链组成(也称为氨基酸残基)。但是,DNA只包含有关氨基酸序列的信息,而没有它们如何折叠形成对应蛋白质形状的信息。蛋白质越大,建模越困难,因为要考虑氨基酸之间存在更多的相互作用。正如Levinthal的悖论所证明的那样,在达到真正的3D结构之前,随机枚举典型蛋白质的所有可能构型所花费的时间要比已知宇宙的时间长,而蛋白质本身却在几毫秒内自发折叠。预测这些链将如何折叠成复杂的蛋白质3D结构就是所谓的“蛋白质折叠问题”,这是数十年来科学家一直在努力的挑战。这个尚未解决的问题,已经激发了无数的科学发展,从激励IBM在超级计算方面的努力(BlueGene)到新颖的公民科学工作(Folding @ Home和FoldIt)到新的工程领域,例如合理的蛋白质设计。

译者注:利文索尔佯谬是一个思想实验,也是蛋白质折叠理论中的一个自指。在1969年,美国分子生物学家Cyrus Levinthal指出,由于在未折叠的多肽链中的非常大量的自由度,该分子具有天文数量的可能构象。如果蛋白质通过连续采样所有可能的构象而获得其正确折叠的构型,则需要比宇宙的年龄更长的时间以达到其正确的天然构象。即使以纳秒或皮秒级速率采样构象,这也是真的。“悖论”是大多数小蛋白质在毫秒或甚至微秒时间尺度上同时折叠。这种悖论的解决方案已经通过蛋白质结构预测的计算方法建立。此佯谬表明蛋白质折叠遵循特异性途径,或者其过程中只尝试有限数目的构象。

02

Why is protein folding important?

I think that we shall be able to get a more thorough understanding of the nature of disease in general by investigating the molecules that make up the human body, including the abnormal molecules, and that this understanding will permit...the problem of disease to be attacked in a more straightforward manner such that new methods of therapy will be developed. 

--Linus Pauling, 1960

长期以来,科学家一直对确定蛋白质的结构感兴趣,因为人们认为蛋白质的形式决定了其功能。一旦了解了蛋白质的形状,就可以猜测其在细胞中的作用,科学家可以开发出与蛋白质的独特形状有关的药物。

在过去的五十年中,研究人员已经能够使用诸如冷冻电子显微镜,核磁共振和X射线晶体学这样的实验技术在实验室中确定蛋白质的形状,但是每种方法都取决于大量的试验和错误,这可能需要花费多年的时间,并且每个蛋白质结构的成本高达数万或数十万美元。这就是为什么生物学家想利用AI方法来替代这一艰难而艰苦的蛋白质过程的原因。不通过昂贵的实验来确定蛋白质,仅凭其遗传密码即可预测蛋白质形状的能力,可以帮助加速研究。

【独家解读】Nature论文AlphaFold:AI推动科学发现_第1张图片

图1:一串氨基酸的复杂3D形状

03

How can AI make a difference?

幸运的是,由于基因测序成本的快速降低,基因组学领域的数据非常丰富。因此,在最近几年中,依赖于基因组数据的用于预测问题的深度学习方法变得越来越流行。为了促进研究和衡量最新方法以提高预测的准确性,1994年成立了两年一度的全球竞赛,名为CASP (Critical Assessment of protein Structure Prediction)4,它已成为评估预测技术的金标准。我们要感谢CASP组织者几十年来的工作,以及成千上万的实验人员,他们的结构能够进行这种评估。

DeepMind在此问题上的工作产生了AlphaFold,我们将其提交给CASP13。我们很荣幸能成为CASP组织者所说的“预测蛋白质结构的计算方法能力的前所未有的进步”的一员,在进入的团队中排名第一5(我们的条目是A7D)。

我们的团队专注于从头开始对目标形状建模的问题,而无需使用先前解决的蛋白质作为模板。当预测蛋白质结构的物理特性时,我们获得了很高的准确性,然后使用两种不同的方法来构建完整蛋白质结构的预测。

04

Using neural networks to predict physical properties

这两种方法均依赖于经过训练的深层神经网络,可以根据其遗传序列预测蛋白质的特性。我们的网络预测的特性是:(a)氨基酸对之间的距离和(b)连接这些氨基酸的化学键之间的角度。第一个发展是在估计氨基酸对是否彼此接近的常用技术方面的进步。

我们训练了一个神经网络来预测蛋白质中每对残基之间的距离分布(如图2所示)。然后将这些概率合并成一个分数,该分数可估计候选蛋白质结构的准确性。我们还训练了一个单独的神经网络,该网络使用所有距离合计来估计候选结构与正确答案的接近程度。

【独家解读】Nature论文AlphaFold:AI推动科学发现_第2张图片

图2:两种可视化Alphafold预测的准确性的方法。上图具有三种蛋白质的距离矩阵。每个像素的亮度代表着蛋白质序列中氨基酸之间的距离。在顶部行中显示的是实际确定的距离,而在底部行中显示的是Alphafold的预期距离分布的平均值。重要的是,在全局和局部范围上都非常匹配。底部子图使用3D模型表示相同的比较,其中具有 AlphaFold 预测(蓝色)与相同三种蛋白质的真实数据(绿色)。

使用这些评分功能,我们能够搜索蛋白质结构以找到与我们的预测相符的结构。我们的第一种方法以结构生物学中常用的技术为基础,并用新的蛋白质片段反复替换蛋白质结构的片段。我们训练了一个生成神经网络来产生新的片段,这些片段被用来不断提高提出的蛋白质结构的分数。

【独家解读】Nature论文AlphaFold:AI推动科学发现_第3张图片

图3:从蛋白质序列预测结构的Alphafold系统的架构示意图

第二种方法通过梯度下降来优化得分,梯度下降是机器学习中常用的一种技术,用于进行较小的增量改进,从而得到了高度准确的结构。这项技术应用于整个蛋白质链,而不是应用于组装成较大结构之前必须分开折叠的片段,以简化预测过程。

该代码可在Github1上找到,以供有兴趣了解更多信息或复现我们蛋白质折叠结果的人士使用。

05

What happens next?

尽管我们对蛋白质折叠模型的成功感到欣慰,但在蛋白质生物学领域仍有许多工作要做,我们很高兴继续在这一领域做出努力。我们致力于建立AI可以为基础科学发现做出贡献的方式,希望能对现实世界产生影响。这种方法可能最终有助于增进我们对身体及其运作方式的了解,从而使科学家能够更有效地针对和设计新的有效治疗方法。科学家仅绘制了人类细胞产生的所有蛋白质中大约一半的结构图。一些罕见疾病涉及单个基因的突变,导致蛋白质畸形,可能对整个有机体的健康产生深远影响。像AlphaFold这样的工具可能会帮助罕见病研究人员快速,经济地预测目标蛋白质的形状。随着科学家获得更多有关蛋白质形状以及它们如何通过模拟和模型进行操作的知识,这种方法最终可以帮助我们为有效的药物发现做出贡献,同时降低与实验相关的成本。我们希望AI可以用于疾病研究,并最终改善世界各地数百万患者的生活质量。

但是潜在的好处并不仅限于健康,理解蛋白质折叠将有助于蛋白质设计,还可以释放出巨大的益处。例如,可以通过蛋白质设计实现的可生物降解酶的进步,帮助我们处理塑料和石油等污染物,以对环境更友好的方式分解废物。实际上,研究人员已经开始对细菌进行工程改造,通过分泌蛋白质使废物可生物降解,并且更易于处理。

我们首次尝试蛋白质折叠的成功标志着机器学习系统如何整合各种信息源,帮助科学家迅速提出解决复杂问题的创新解决方案。正如我们已经看到AI如何通过AlphaGo和AlphaZero这样的系统来帮助人们掌握复杂的游戏一样,我们同样希望有一天,AI的突破能够成为一个有助于进一步加深我们对基本科学问题理解的平台。

看到这些蛋白质折叠进展的早期迹象令人兴奋,证明了AI在科学发现中的实用性。即使在我们能够对治疗疾病,管理废物等产生可量化影响之前还有很多工作要做,但是我们知道这项工作的潜力是巨大的。我们拥有一支致力于研究机器学习如何推动科学世界发展的专业团队,我们期待着看到我们的技术得以应用的无限可能。

外链地址:

[1] https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13 

[2] https://www.biorxiv.org/content/10.1101/846279v1.full.pdf 

[3] https://github.com/dellacortelab/prospr 

[4] https://predictioncenter.org/ 

[5] https://predictioncenter.org/casp13/zscores_final.cgi?formula=assessors


直播预告

【独家解读】Nature论文AlphaFold:AI推动科学发现_第4张图片

独家解读”历史文章

  • 谷歌会议app背景模糊和替换技术解析

  • 孙裕道:基于优化的对抗攻击:CW攻击的原理详解与代码解读

  • 李永露:PaStaNet:Toward Human Activity Knowledge Engine

  • 孙裕道:ExprGAN:基于强度可控的表情编辑

  • 杨传广:高效设计图像分类模型:混合连通性的门限卷积神经网络【附PPT与视频资料】

  • 朱时超:图平滑样条神经网络【附PPT与视频资料】

  • 孙裕道:矩阵视角下的BP算法

  • 孙裕道:Capsule Network深度解读

  • 孙裕道:Fisher信息度量下的对抗攻击

  • 曾仙芳:通过自监督解耦身份和姿态特征实现人脸再扮演任务【附PPT与视频资料】

  • “九歌”来了, 清华九歌诗词生成系统工具、数据集和论文大合辑

  • 张杰:针对图像处理网络的模型水印【附PPT与视频资料】

  • 牛广林:规则引导的知识图谱组合式表示学习【附PPT与视频资料】

  • 王井东:物体上下文引导的表征学习在语义分割中的应用

  • 薛广涛:智慧城市中的异构服务协同共性关键技术研究

更多独家解读专栏文章

请点击文章底部“阅读原文”查看

分享、点赞、在看,给个三连击呗!

你可能感兴趣的:(神经网络,大数据,机器学习,人工智能,深度学习)