Learning the protein language: Evolution, structure, and function(翻译)（上篇）

翻译文章：Learning the protein language: Evolution, structure, and function

*注：加粗地方为个人研究所需，翻译提供阅读指导帮助，具体细节请查看原文

Bepler T, Berger B. Learning the protein language: Evolution, structure, and function[J]. Cell systems, 2021, 12(6): 654-669. e3.

In brief

Bepler和Berger讨论了蛋白质语言建模及其在下游蛋白质性质预测问题上的应用的最新进展。他们考虑如何利用先前的生物知识来丰富这些模型，并引入一种方法，将蛋白质结构知识编码到学习到的表示中。

Highlights

1、Deep protein language models can learn information from protein sequence

2、They capture the structure, function, and evolutionary fitness of sequence variants

3、They can be enriched with prior knowledge and inform function predictions

4、They can revolutionize protein biology by suggesting new ways to approach design

SUMMARY

语言模型最近成为一种强大的机器学习方法，可以从大量的蛋白质序列数据库中提取信息。仅从现成的序列数据，这些模型就可以发现蛋白质空间中的进化、结构和功能组织。使用语言模型，我们可以将氨基酸序列编码成分布式的向量表示形式，捕捉它们的结构和功能属性，并评估序列变体的进化适应性。我们讨论了蛋白质语言建模的最新进展及其在下游蛋白质性质预测问题中的应用。然后，我们考虑如何利用先验的生物知识来丰富这些模型，并引入一种方法，将蛋白质结构知识编码到学习的表示中。这些模型提炼出的知识允许我们通过迁移学习改进下游功能预测。深层蛋白质语言模型正在彻底改变蛋白质生物学。他们提出了蛋白质和治疗设计的新方法。然而，还需要进一步的发展，将强大的生物学先验编码到蛋白质语言模型中，并增加其对更广泛的社区的可访问性。

INTRODUCTION

蛋白质是执行细胞大部分分子功能的分子机器。它们是由线性氨基酸序列折叠成复杂的三维结构集合，可以从有序到无序，并经历构象变化;生物化学和细胞功能源于蛋白质的序列和结构。了解序列-结构-功能的关系是蛋白质生物学的中心问题，是理解疾病机制和设计治疗和生物工程应用的蛋白质和药物的关键。

序列-结构-函数关系的复杂性继续挑战着我们的计算建模能力，部分原因是现有的工具没有充分认识到存储在大型数据库中的序列、结构和函数信息数量不断增加的潜力。直到最近，蛋白质分析的计算方法都是使用基于第一性原理的结构模拟或统计序列建模方法，以寻求识别反映进化和功能压力的序列模式。(Marks, Hopf and Sander, 2012; Ekeberg et al., 2013; Wang et al., 2017; Liu et al., 2018; Yang et al., 2020) (Figure 1) 在这些方法中，结构分析很大程度上是由第一原则驱动的，而序列分析方法主要是基于统计序列模型，这对进化过程做出了强有力的假设，但随着可用的自然序列信息数量的增加，数据驱动的程度越来越高。

基于物理的方法使用所有的原子能量函数或者是为蛋白质设计的启发式算法来估计给定构象的能量并模拟自然运动。这些方法很有吸引力，因为它们利用了我们对这些系统物理的基本理解，并产生了可解释的假设。Rosetta工具，将与小的恒定大小的连续子序列相关联的折叠片段缝合在一起，在蛋白质折叠和设计的自由能估算方面取得了显著的成功(Leaver-Fay等人，2011)，分子动力学软件如GROMACS被广泛应用于动力学建模和细粒度结构预测(Hess et al., 2008).统计抽样方法也已发展，寻求从基于粗粒度能量函数的可接近构象取样 (Godzik, Kolinski and Skolnick, 1993; Srinivasan and Rose, 1995; Choi and Pappu, 2019).Rosetta通过混合使用结构模板和自由能量最小化来寻找与目标结构匹配的序列，在解决设计问题方面尤其成功。然而，尽管Rosetta取得了成功，但它和类似的方法都采用了简化的能量模型，计算成本极高，需要专业知识才能正确建立，而且精度有限。

图1：近年来在蛋白质序列和结构分析中的经典方法，其特点是该方法受第一原理（强生物学先验）驱动与大数据驱动。绿色：序列-序列，紫色：序列-结构，蓝色：结构-序列，橙色：结构结构。经典方法往往更受第一原理驱动，而新方法则越来越受数据驱动。现有的方法往往要么是数据驱动的，要么是基于第一原理的，两者之间存在的方法很少。请注意，此时 AlphaFold2 的详细信息尚未公开，因此图 1 中的放置是一个粗略的估计。一些方法，尤其是 Rosetta，可以执行多种功能。

在光谱的另一端，统计序列模型已被证明对于模拟相关蛋白质组的氨基酸序列非常有用。这些方法使我们能够发现进化压力对氨基酸施加的限制，并广泛用于同源性搜索（Altschul 和 Koonin，1998；Bateman 等，2004；Rohl 等，2004；Finn、Clements 和 Eddy，2011； Remmert et al., 2011a) 并用于预测 3D 蛋白质结构中的残基 - 残基接触，使用序列中成对位置的氨基酸之间的共变（共同进化）（Gobel et al., 1994; Berger, 1995; Berger 等人，1995；Wolf、Kim 和 Berger，1997；McDonnell 等人，2006；Trigg 等人，2011；Marks、Hopf 和 Sander，2012；de Juan、Pazos 和 Valencia，2013；Ekeberg 等人。 , 2013)。蛋白质结构预测的进步是通过构建越来越大的深度学习系统来预测序列家族的残基 - 残基距离（Liu 等人，2018 年；Xu 和 Wang，2019 年）并基于预测的距离约束折叠蛋白质，最近达到顶峰AlphaFold2 在蛋白质结构预测关键评估 (CASP) 14 竞赛中的成功（Jumper 等人，2020 年）。这些方法依赖于蛋白质序列的大型数据集，这些数据集足够相似，可以以高置信度对齐，但包含足够的差异，可以可靠地推断位置之间的统计耦合。因此，他们无法在可能不相关的蛋白质的大规模数据库中学习模式，并且利用越来越多的可用结构和功能信息的能力有限。

语言模型最近已成为序列生成建模的强大范例，并成为从大规模序列数据集中学习“内容感知”数据表示的一种手段。统计语言模型是标记序列上的概率分布（例如，自然语言处理中的单词或字符，蛋白质的氨基酸）。给定一个标记序列，语言模型为整个序列分配一个概率。在自然语言处理 (NLP) 中，语言模型广泛用于机器翻译、问答和信息检索等应用。在生物学中，轮廓隐马尔可夫模型 (HMM) 是简单的语言模型，已广泛用于同源建模和搜索。语言模型能够捕捉氨基酸之间复杂的依赖关系，并且可以针对所有蛋白质序列进行训练，而不是专注于单个家族；在这样做的过程中，他们有可能突破统计序列建模的极限。在将这些模型引入生物学时，我们现在不仅能够从自然观察到的序列中学习，包括所有已知的序列空间（Alley 等人，2019；Bepler 和 Berger，2019），而且还能够整合现有的通过多任务学习获得结构和功能知识。（框 1 提供了可能不太熟悉的术语表。）语言模型学习序列发生的概率，这可以直接应用于预测序列突变的适应度（Riesselman、Ingraham 和 Marks，2018 年；Hie 等人。 , 2020a, 2021)。他们还学习摘要表示，强大的特征可用于更好地捕获序列关系并通过迁移学习将序列链接到功能（Alley 等人，2019；Bepler 和 Berger，2019；Rao 等人，2019；Rives 等人。，2019；Hie 等人，2020b；罗等人，2020）。最后，语言模型还通过根据结构（Ingraham 等人，2019a）或功能（Madani 等人，2020）规范调节语言模型，为受控序列生成提供了潜力。

深度语言模型是蛋白质序列建模的一个令人兴奋的突破，它使我们能够仅从序列语料库中存在的进化关系中发现结构和功能的各个方面。然而，这些模型的全部潜力尚未实现，因为它们继续受益于更多参数、更多计算能力和更多数据。同时，这些模型可以通过多任务学习来丰富强大的生物先验。

在这里，我们建议结合大型数据集和强大领域知识的方法将是释放蛋白质序列建模全部潜力的关键。具体来说，基于物理结构的先验可以通过结构监督来学习，同时也可以从数亿个天然蛋白质序列中学习进化关系。此外，编码的进化和结构关系使我们能够通过迁移学习来学习蛋白质的功能特性。在这种协同作用中，我们将讨论这些发展并展示通过多任务学习丰富具有基于结构的先验的大规模语言模型的新结果。首先，我们将讨论深度学习和语言建模的新发展及其在具有大型数据集的蛋白质序列建模中的应用。其次，我们将讨论如何通过结构监督来丰富这些模型。第三，我们将讨论迁移学习，并证明我们的深度语言模型中编码的进化和结构信息可用于改进蛋白质功能预测。最后，我们将讨论蛋白质机器学习和大规模语言建模的未来方向。

Protein language models distill information frommassive protein sequence databases

随着自然语言处理 (NLP) 领域大规模模型的成功，用于蛋白质序列表示学习的语言模型（图 2）引起了人们的极大兴趣。这些模型借鉴了这样一种思想，即可以从蛋白质序列的生成模型中提取蛋白质的分布式向量表示，从跨天然蛋白质空间的大型且多样化的序列数据库中学习，从而可以捕获给定序列的语义或功能 . 在这里，功能是指与蛋白质功能相关的任何和所有属性。这些特性通常受到进化压力，因为必须维持或增强这些功能才能使有机体生存和繁殖。这些压力体现在天然蛋白质序列中存在的氨基酸分布中，因此，可以从足够大且多样化的天然序列中发现。

图2 模型建构与语言建模方法图。(A) 语言模型对序列的概率进行建模。通常，该分布在序列上被分解，使得位置 i (xi) 处的标记（例如，氨基酸）的概率取决于先前的标记。在神经语言模型中，这是通过首先计算序列给出的隐藏层 (hi) 直到位置 i-1，然后计算给定 hi 的令牌 xi 上的概率分布来实现的。在这个示例序列中，“^”和“$”分别代表开始和停止标记，序列的长度为 L。(B) 双向语言模型代替独立地以前面和后面的标记为条件对标记的概率进行建模。对于每个令牌 xi，我们使用单独的正向和反向模型计算隐藏层。然后，这些隐藏层用于计算位置 i 处的标记的概率分布，条件是序列中的所有其他标记。这使我们能够提取捕获完整序列上下文的表示。(C) 掩码语言模型通过用额外的“掩码”token（“X”）替换每个位置的token，以序列中所有其他token为条件对每个位置的token概率进行建模。在这些模型中，每个位置的隐藏层是根据序列中的所有标记计算的，这允许模型捕获被屏蔽标记任一侧的标记之间的条件非独立性。这个公式很适合迁移学习，因为表示可以依赖于每个token的完整上下文。

学习语义的能力源于分布假设：出现在相似上下文中的标记（例如单词、氨基酸）往往具有相似的含义。语言模型只需要观察序列，并使用自回归公式（图 2A 和 2B）或掩码位置预测公式（在 NLP 中也称为完形填空任务，图 2C）对氨基酸的概率分布进行训练。在自回归语言模型中，序列的概率被分解，使得每个标记的概率仅以前面的标记为条件。这种分解是精确的，并且在从分布中抽样或评估概率本身是主要兴趣时很有用。这个公式的缺点是为每个位置学习的表示只依赖于前面的位置，这可能会使它们作为上下文表示不太有用。掩蔽位置预测公式（也称为掩蔽语言建模）通过考虑以序列中所有其他令牌为条件的每个位置处每个令牌的概率分布来解决此问题。掩码语言建模方法不允许计算整个序列的正确归一化概率，但当学习的表示是主要兴趣的结果时更合适。语言模型最近在自然语言处理方面取得了前所未有的成功，例如 Google 的 BERT 和 OpenAI 的 GTP-3，很大程度上是因为它们能够从庞大的在线语料库中的数十亿文本条目中学习。类似地，我们拥有天然蛋白质序列数据库，其中包含数以亿计的独特序列，这些序列还在继续快速增长。

NLP 的最新进展是由神经网络架构的创新、新的训练方法、计算能力的提高以及庞大文本语料库的可访问性提高推动的。已经提出了几种 NLP 方法，它们利用无监督学习（现在通常称为自监督学习）（Devlin 等人，2018 年；彼得斯等人，2018 年）来拟合大规模双向长短期递归神经网络（双向 LSTM）或 biLSTMs）（Hochreiter 和 Schmidhuber，1997 年；Graves、Ferna´ndez 和 Schmidhuber，2005 年）或 Transformers（Vaswani 等人，2017 年）及其最近的变体。 LSTM 是循环神经网络。这些模型按顺序一次处理一个标记，因此学习从一个位置和所有先前位置捕获信息的表示。为了在任何给定位置之前和之后包含来自标记的信息，双向 LSTM 组合了两个独立的 LSTM，在每一层中向前和向后方向运行（例如，如图 2B 所示）。尽管这些模型可以学习包括整个序列上下文在内的表示，但它们学习远距离依赖关系的能力在实践中是有限的。为了解决这个限制，transformers 通过显式计算序列中每个位置的注意力向量来学习表示。在自我注意机制中，每个位置的表示是通过“关注”同一序列的每个位置来学习的，非常适合掩码语言建模（图 2C）。在自注意力模块中，序列的每个元素的输出表示被计算为每个位置处输入表示的变换的加权和，其中加权本身基于输入的学习变换。注意力机制通常被认为允许transformer更容易地学习线性序列中距离较远的位置之间的依赖关系。 Transformer 也可用作自回归语言模型。

在自然语言处理中，Peters 等人。认识到 biLSTM 的隐藏层（堆栈神经网络的中间表示）编码了上下文中单词的语义含义。这一观察结果已被新用于生物序列分析（Alley 等人，2019 年；Bepler 和 Berger，2019 年），以学习更多语义上有意义的序列表示。机器翻译深度转换器的成功启发了它们在上下文文本嵌入中的应用，即学习单词和句子的上下文向量嵌入，从而产生了现在广泛使用的来自 NLP 中的转换器（BERT）模型的双向编码器表示（Devlin 等人。 , 2018)。 BERT 是一个在大型文本语料库上作为掩码语言模型训练的深度转换器。结果，它学习了文本的上下文表示，以捕获上下文含义并提高下游 NLP 系统的准确性。 Transformers 作为自回归语言模型也表现出令人印象深刻的性能，例如 Generative Pre-trained Transformer (GPT) 系列模型（Radford et al., 2018, 2019; Brown et al., 2020），它们在自然语言生成。这些工作激发了蛋白质序列的后续应用（Rao 等人，2019；Rives 等人，2019；Elnaggar 等人，2020；Vig 等人，2020）。

尽管 Transformer 是强大的模型，但它们需要大量参数，并且比典型的递归神经网络训练更慢。借助大规模数据集和计算以及时间预算，transformers 可以取得令人印象深刻的结果，但通常，循环神经网络（例如 biLSTM）需要较少的训练数据和较少的计算，因此可能更适合可用序列较少的问题，例如因为对单个蛋白质家族的培训，或者计算预算很紧。构建能够实现高精度和更高计算效率的语言模型是该领域的算法挑战。通用预训练蛋白质模型的一个优点是我们只需要进行一次昂贵的训练步骤；然后可以使用模型进行预测，或者可以通过迁移学习（Bengio，2012）将其应用于新问题，如下所述。

使用这些和其他工具，蛋白质语言模型能够通过训练存储在蛋白质数据库中的数百万个序列（例如，UniProt、Pfam、NCBI (Bateman et al., 2004; Pruitt) 来合成大量已知的蛋白质序列。，Tatusova 和 Maglott，2007 年；UniProt 联盟，2019 年））。语言模型学习的序列分布捕捉了已知蛋白质的进化适应度。当对数以万计的进化相关蛋白质进行训练时，描述自然发生序列经验分布的学习概率质量函数已显示出预测序列变体适应度的前景（Riesselman、Ingraham 和 Marks，2018；Hie 等人，2020a， 2021）。因为这些模型直接从进化数据中学习，所以当功能反映在自然序列的适应度上时，它们可以对蛋白质功能做出准确的预测。里塞尔曼等人。首次证明，适合单个蛋白质家族的语言模型是在深度突变扫描数据集中测量的变异适应度的惊人准确预测因子（Riesselman、Ingraham 和 Marks，2018 年）。此后的新工作表明，语言模型学习的表示也是学习变体适应度作为后续监督学习任务的强大特征（Rives 等人，2019；Luo 等人，2020），建立在早期观察到的语言模型的基础上可以通过迁移学习改进蛋白质特性预测（Bepler 和 Berger，2019）。最近，Hie 等人。使用语言模型来学习病毒包膜蛋白的进化适应性，并能够预测可能使 SARS-CoV-2 刺突蛋白逃脱中和抗体的突变（Hie 等人，2020a，2021）。截至发表时，在世界各地的 SARS CoV 2 测序工作中出现了几种预计具有高逃逸潜力的变体，但病毒逃逸尚未得到实验验证（Walensky 等人，2021）。

最近的一些工作集中在通过添加更多参数和更多可学习层来改进序列建模来增加这些模型的规模。有趣的是，由于可用的序列如此之多，这些模型继续受益于增加的尺寸（Rives 等人，2019 年）。这与自然语言处理的总体趋势相似，其中参数的数量而不是特定的架构选择是模型性能的最佳指标（Kaplan 等人，2020 年）。然而，最终，模型大小受到可用于训练和应用这些模型的计算资源的限制。在 NLP 中，BERT 和 GPT-3 等模型变得如此庞大，以至于只有拥有大量图形处理单元 (GPU) 计算集群的资金最雄厚的组织才能真正地训练和部署它们。这在最近关于蛋白质模型的一些工作中得到了证明，其中基于单个转换器的模型在数百个 GPU 上训练了数天到数周（Rives 等人，2019；Elnaggar 等人，2020；Vig 等人，2020），成本可能为 100数千美元用于培训。增加这些模型的规模有望继续提高我们对蛋白质进行建模的能力，但需要更多资源有效的算法来使这些模型更容易被更广泛的科学界访问。

到目前为止，我们讨论的语言模型使用的是自然蛋白质序列信息。然而，他们并没有从过去几十年蛋白质研究积累的蛋白质结构和功能知识中学习。纳入这些知识需要有监督的方法。

Supervision encodes biological meaning

蛋白质不仅仅是字符序列：它们是氨基酸的物理链，可以折叠成三维结构并根据这些结构执行功能。序列-结构-功能关系是蛋白质生物学的核心支柱，已花费大量时间和精力来阐明选择感兴趣的蛋白质的这种关系。特别是，蛋白质结构测定方法（例如 X 射线晶体学和cryo-EM（Cheng 等人，2015 年；Callaway，2020 年））的通量和易用性不断提高，推动了蛋白质结构测定方法的快速增长。数据库中可用的已知蛋白质结构的数量，例如蛋白质数据库 (PDB) (Berman et al., 2000)。截至发布时，PDB 中有近 175,000 个条目，而且这个数字正在迅速增长。 2020 年沉积了 14,000 个新结构，并且新结构的沉积率正在增加。我们追求这样的直觉，即通过监督学习将这些知识纳入我们的模型可以帮助从序列预测功能，绕过对已解决结构的需求。

监督学习是在给定一些观察变量的情况下找到一个数学函数来预测目标变量的问题。就蛋白质而言，监督学习通常用于从序列预测蛋白质结构、从序列预测蛋白质功能，或用于其他序列注释问题（例如，信号肽或跨膜区域注释）。除了进行预测之外，监督学习还可用于将特定语义编码为学习表示。这在计算机视觉中很常见，例如，使用大型 ImageNet 数据集上的预训练图像识别模型来为模型提供来自自然图像类别的信息（Russa kovsky et al., 2015）。

当我们使用监督方法时，我们将语义先验编码到我们的模型中。这些先验对于学习从原始数据中不明显的关系很重要。例如，不相关的蛋白质序列可以形成相同的结构折叠，因此在语义上是相似的。但是，我们不能仅从序列中推断出这种关系。需要监督来了解这些序列属于同一语义类别。尽管结构比序列更能提供功能信息（Zhang and Kim, 2003; Shin et al., 2007）并且结构是由序列编码的，但预测结构仍然很困难，特别是由于相对于序列数据而言结构相对缺乏。最近在海量计算资源方面取得了重大进展（Jumper 等人，2020 年）；然而，在一个完整的序列到结构映射成为可能之前，还有很长的路要走。即使在原则上，这种地图可能或应该可能的程度也不清楚。

序列之间的进化关系是结构和功能关系的信息，但只有当序列同源性程度足够高时。超过 30% 的序列同一性、结构和功能通常在天然蛋白质之间是保守的 (Rost, 1999)。通常被称为蛋白质序列同源性的“暮光区”，具有相似结构和功能的蛋白质在该水平以下仍然存在，但仅从序列相似性已无法检测到它们，其功能是否保守尚不清楚。尽管通常认为具有相似序列的蛋白质形成相似的结构，但也有一些有趣的例子表明，高度相似的蛋白质序列具有完全不同的结构和功能（Kosloff 和 Kolodny，2008；Wei 等，2020）以及可以形成的序列多重折叠（James 和 Tawfik，2003 年）。进化创新要求蛋白质功能只需几个突变即可改变。此外，重要的是要注意，虽然结构和功能是相关的，但它们不应直接混为一谈。

这些现象表明，仅通过统计序列模型可能无法发现蛋白质生物学的某些方面。代表已知蛋白质结构、功能和其他先验知识的监督对于将远距离序列关系编码到学习嵌入中可能是必要的。以此类推，汽车和船都是交通工具，但我们不希望生成图像模型仅从静止图像中推断出这种关系。但是，我们可以通过监督来教授这些关系。

在此前提下，我们假设在训练蛋白质语言模型时结合结构监督将提高通过迁移学习预测下游任务功能的能力。最终，这样的语言模型可能会变得足够强大，我们可以直接预测功能，而无需求解结构。在本综合的其余部分中，我们将探讨这个想法。