MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING

通过提示学习进行多级蛋白质结构预训练

期刊:ICLR2023

作者:浙江大学团队


背景

蛋白质可以关注不同的结构水平来实现其功能。 蛋白质结构有四个不同的层次,第一级是由氨基酸组成的蛋白质序列,第二级是指局部折叠结构,第三季描述自然折叠的三维结构,第四级是由多个氨基酸组成的蛋白质聚体。

大多数现有的功能预测方法都采用一级或三级结构作为输入,无意中忽略了蛋白质结构的其他级别。

相关工作

Protein Representation Models(从一级结构出发)

  • Asgari& Mofrad (2015); Yang et al. (2018) apply word embedding algorithms to obtain protein representations.
  • Dalkiran et al. (2018); Ozturk et al. (2018) use one-dimensional convolutional neural networks to predict the functions.
  • Alley et al. (2019); Elnaggar et al.(2021); Rives et al. (2021) explore whether the pre-training and fine-tuning paradigm, the transformer architectures, and the objective functions can effectively transfer from natural languages to proteins.
  • Zhang et al. (2021) align the amino acid sequence and the text sequence to obtain informative protein representation.

Protein Representation Models(从三级结构出发)

  • Hermosilla et al. (2020); Somnath et al.(2021); Ganea et al. (2021); Zhang et al. (2022) 构建蛋白质图并利用消息传递神经网络来生成结构感知表示。
  • Bepler & Berger (2021)采用接触图预测和结构相似性预测来预训练蛋白质模型。

缺陷:

少有工作使用四级结构来丰富蛋白质表征。

两个挑战

how to design proper pre-training tasks for different protein structures?

how to efficiently integrate these tasks in the pre-training phase and transfer the implicit protein structure knowledge for function prediction in fine-tuning phase?

作者工作

  • 提出了一种新的提示引导的多任务预训练和微调框架。
  • 通过提示引导的多任务预训练,我们学习多个提示信号来引导模型(称为 PromptProtein)专注于不同级别的结构。
  • 设计了一个即时微调模块,为下游任务提供利用各个级别的结构信息的按需灵活性。功能预测和蛋白质工程方面的大量实验表明
  • 这是第一个基于提示的预训练蛋白质模型。

The architecture overview of PromptProtein

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第1张图片

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第2张图片

方法

PROMPT-AWARE ATTENTION MODULE

Attention mask

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第3张图片

Skip connection

PROTEIN MULTI-LEVEL STRUCTURES LEARNING

为了获取多层次的蛋白质结构信息,本文考虑了三个互补的预训练任务

Masked language modeling

此任务使用所有可用的氨基酸标记来恢复屏蔽的氨基酸标记;

Alpha-Carbon Coordinate Prediction(α-碳坐标预测

二级结构可以从蛋白质 3D 坐标推断出来,因此我们使用 α-C 坐标预测任务来学习二级和三级结构

Protein-Protein Interaction prediction(蛋白质相互作用预测

预测第 m 个和第 n 个蛋白质是否可以在批量数据中相互作用

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第4张图片

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第5张图片

PROMPT-GUIDED MULTI-TASK PRE-TRAINING AND FINE-TUNING

对应三个预训练任务,提示可以实例化为三个token之一:

提示引导的多任务预训练的目标函数可以表示为:

当我们预训练具有多个任务的模型(如公式 6)时,模型参数 ψ 和提示 p 都得到优化。这样,模型不一定需要学习所有任务的最优表示,而只需要学习每个任务各自的最优表示。

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第6张图片

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第7张图片

结果与分析

PRE-TRAINING SETUP

对于一级结构,我们使用 UniRef50,它是具有 50% 序列同一性的 UniRef90 种子序列的聚类。对于二级和三级结构信息,我们使用蛋白质数据库(PDB),其中包括通过实验方法获得的200,000个蛋白质3D结构。对于四级结构信息,我们使用包含氨基酸序列和蛋白质蛋白质相互作用对的 STRING 数据集。在 STRING 数据集中,蛋白质相互作用分为 7 类。我们从 STRING 中选择了纯物理相互作用子集,其中包含来自 14,095 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质-蛋白质相互作用对。

DOWNSTREAM TASK DATASETS

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第8张图片

Model performance on EC numbers and GO terms prediction tasks

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第9张图片

How do prompts determine the processing pathways of structural information?

在图 4(a) 中,可视化了不同神经层的三个预训练提示的跳跃权重,并计算这些跳跃权重的 Pearson 相关性

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第10张图片

Can PromptProtein learn multi-level structures?

图 5(a) 说明了以 [MLM] 为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入根据其类型进行分组

图 5(b) 说明了以 [CRD] 为条件的氨基酸嵌入。我们发现氨基酸沿着蛋白质中的序列在二维空间中线性排列。为了获得表示和结构之间更准确的关系,我们比较了蛋白质接触图和嵌入的坐标。它们之间的强相关性表明 CRD 目标可以有效地了解蛋白质 3D 结构的信息。

在图 5(c) 中,我们通过传统的多任务预训练可视化氨基酸嵌入,并突出显示丝氨酸(一类氨基酸)。嵌入尝试同时合并多个结构特征,这导致模式不清晰。

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第11张图片

Do downstream tasks benefit from the acquired information on-demand by prompt tuning?

为了进一步分析提示引导微调的重要性,作者对 SAbDab 数据集上的结合亲和力预测任务进行了消融研究。

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING_第12张图片

这些结果证明,并非预训练中的所有结构信息都对下游任务有益,并且通过即时调整自适应地组合获取的信息可以带来更好的性能。

结论

在本文中,我们将提示的概念从 NLP 扩展到蛋白质表示。我们提出了即时引导的多任务预训练和微调框架。通过这个框架,我们提出了三种互补的预训练结构来获取多层次的结构信息,并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明,与传统的 PTPM 相比,所提出的方法可以产生令人满意的改进。

你可能感兴趣的:(prompt,学习)