2022-07-11

Nat Mac Int | 基于语言模型的蛋白质设计

原创 mumu 图灵基因 2022-07-11 08:32 发表于江苏

收录于合集#前沿生物大数据分析

撰文:mumu

IF= 15.508

推荐度:⭐⭐⭐⭐⭐

亮点:

作者认为基于transformer的蛋白质语言模型将彻底改变蛋白质设计领域,并为当前和未来的许多社会挑战提供新的解决方案。希望这种想法能影响到人工智能和生物化学界,并鼓励将NLP方法应用于蛋白质研究。


2022年6月22日,目前是西班牙赫罗纳大学的Noelia Ferruz博士在Nature Machine Intelligence上发表了一篇名为“Controllable protein design with language models”的综述。自然语言中字母形成单词和句子承载含义,蛋白质中氨基酸以多种组合排列形成承载功能的结构,本质上蛋白质序列与自然语言相似。随着人工智能领域的不断发展,自然语言处理领域的革命性突破,作者认为,使用生成性语言模型来可控设计蛋白质将是一个前景领域,此综述详细讨论了该模型对蛋白质设计的可预见性影响。


二十一世纪正向人类提出前所未有的环境和医学挑战。为特定目的设计新蛋白质的能力可能会改变我们及时应对这些问题的能力。然而,如何以快速和具有成本效益的方式定制设计特定、高效和量身定制的蛋白质,研究者仍在探索。蛋白质设计时有一巨大的挑战是创建功能性蛋白质的高级结构,常被称为蛋白质反向折叠问题。在人工智能领域,这一挑战被转化成如何获得特定折叠结构的最佳序列。由于蛋白质序列与自然语言本质相似,为利用自然语言处理(NLP)方法进行蛋白质研究打开了一扇未被探索的大门。

首先,作者介绍了自然语言和蛋白质序列之间的相似性(图1)。蛋白质序列(一级结构)由其20个标准氨基酸(类似于自然语言字母表中的字符)串联而成。这些氨基酸形成了二级结构元素,如:α-螺旋和β-螺旋,它们就像单词组合成具有意义的句子一样,排列形成具有功能的三级结构。蛋白质结构域进一步组装成更大的四元复合体,类似于构建句子的文本。这时自然语言句子中的错别字可能是致命的,这类似蛋白质的功能错义突变。句子和序列可以被置换,但它们的意义和功能保持不变。语法上正确的句子不能保证逻辑有意义,类似像折叠结构正确的蛋白质不能保证功能。


基于这种相似性,NLP对蛋白质研究产生了长远的影响。NLP方法和蛋白质研究的技术手段交织(图2)。几十年来,NLP领域的每一项突破都反映在多年后的蛋白质研究应用中。其中NLP隐马尔可夫模型(HMM)是随机过程,卷积网络(CNN)、递归网络(RNN)和注意力机制等涉及神经网络。而且自2010年代以来,神经网络开始在各种NLP任务中产生优异的结果。很快其中CNN的适用性很快扩展到蛋白质研究,以预测蛋白质无序、DNA结合位点和折叠分类。然而,CNN未能对远程信息进行建模,也就是说无法进空间远程接触。为此,NLP研究人员转向RNN,Alley等人开发了用于蛋白质的语言模型UniRep;注意力机制模型,谷歌发布了Transformer。随着Transformer的不断发展,这些预先训练的模型开始生成类似人类的、长的、连贯的文章。这在NLP领域具有巨大的潜力,且可以应用于蛋白质研究。


最常用的Transformer原理图概述(图3)。seq2seq模型中编码器(E)和解码器(D)模型处理顺序输入被编码为上下文(C)的向量;最初的transformer架构由编码器和解码器模型组成,每个模型都有六层堆栈;GPT-n transformers基于原始transformer,但仅包含解码器模型(图3c),而BERT仅使用编码器(图3d)。


近年来Transformer模型大小和数据库随时间不断增长(图4)。受到transformer的启发,研究人员开始尝试将语言模型的概念应用于蛋白质序列。


在蛋白质工程领域使用transformer模型的可能性(图5)。事实证明,用蛋白质序列数据库训练transformer (T)之后,可以产生从头开始的蛋白质序列(如图5e所示)。微调蛋白质家族的预训练模型将产生与该家族兼容的新序列。最后一层的矢量表示可以用于各种下游任务,通过使用耦合模型进行训练,例如,预测蛋白质的稳定性。条件转换器将能够产生具有某些属性的序列,例如‘蛋白酶’或‘膜’结合。注意力机制的可视化为理解transformer模型打开了大门,这些模型与其他技术一起,可以用来理解蛋白质设计原理,如所需的相互作用。机器翻译模型,例如来自原始transformer的模型,可以实现受体和酶的设计。


NLP领域的最新发展及其在蛋白质序列中的潜在应用,为蛋白质研究和可定制蛋白质的设计打开了令人兴奋的新大门。基于transformer的语言模型服务于各种任务,包括翻译自然语言,甚至编写代码来训练机器学习模型。此外,这些新的模型生成文本的能力与人类非常相似,以至于自诞生以来,它们就一直饱受争议,往往因为担心可能被以假新闻或不道德的医疗建议的形式发布而滥用。不论如何,这些例子清楚地表明了transformer令人难以置信的潜力。鉴于语言和蛋白质序列之间的相似性,蛋白质研究领域无疑将受益于这项变革性的新技术。

教授介绍


Noelia Ferruz目前是西班牙赫罗纳大学一名博士后,近年来主要从事蛋白质结构分析工具开发,使用和改进计算设计方法设计蛋白质等工作。未来希望能够构建具有附加功能的蛋白质,用于医疗和工业应用。其多篇研究成果已在《Nature Biotechnology》、《Nucleic Acids Research》、《Frontiers in Molecular Biosciences》等国际知名期刊上发表。

参考文献

Ferruz, N., Höcker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). https://doi.org/10.1038/s42256-022-00499-z

你可能感兴趣的:(2022-07-11)