通过提示学习进行多级蛋白质结构预训练
期刊:ICLR2023
作者:浙江大学团队
蛋白质可以关注不同的结构水平来实现其功能。 蛋白质结构有四个不同的层次,第一级是由氨基酸组成的蛋白质序列,第二级是指局部折叠结构,第三季描述自然折叠的三维结构,第四级是由多个氨基酸组成的蛋白质聚体。
大多数现有的功能预测方法都采用一级或三级结构作为输入,无意中忽略了蛋白质结构的其他级别。
Protein Representation Models(从一级结构出发)
Protein Representation Models(从三级结构出发)
缺陷:
少有工作使用四级结构来丰富蛋白质表征。
两个挑战:
how to design proper pre-training tasks for different protein structures?
how to efficiently integrate these tasks in the pre-training phase and transfer the implicit protein structure knowledge for function prediction in fine-tuning phase?
作者工作
PROMPT-AWARE ATTENTION MODULE
Attention mask
Skip connection
PROTEIN MULTI-LEVEL STRUCTURES LEARNING
为了获取多层次的蛋白质结构信息,本文考虑了三个互补的预训练任务
Masked language modeling
此任务使用所有可用的氨基酸标记来恢复屏蔽的氨基酸标记;
Alpha-Carbon Coordinate Prediction(α-碳坐标预测)
二级结构可以从蛋白质 3D 坐标推断出来,因此我们使用 α-C 坐标预测任务来学习二级和三级结构
Protein-Protein Interaction prediction(蛋白质相互作用预测)
预测第 m 个和第 n 个蛋白质是否可以在批量数据中相互作用
PROMPT-GUIDED MULTI-TASK PRE-TRAINING AND FINE-TUNING
对应三个预训练任务,提示可以实例化为三个token之一:
提示引导的多任务预训练的目标函数可以表示为:
当我们预训练具有多个任务的模型(如公式 6)时,模型参数 ψ 和提示 p 都得到优化。这样,模型不一定需要学习所有任务的最优表示,而只需要学习每个任务各自的最优表示。
PRE-TRAINING SETUP
对于一级结构,我们使用 UniRef50,它是具有 50% 序列同一性的 UniRef90 种子序列的聚类。对于二级和三级结构信息,我们使用蛋白质数据库(PDB),其中包括通过实验方法获得的200,000个蛋白质3D结构。对于四级结构信息,我们使用包含氨基酸序列和蛋白质蛋白质相互作用对的 STRING 数据集。在 STRING 数据集中,蛋白质相互作用分为 7 类。我们从 STRING 中选择了纯物理相互作用子集,其中包含来自 14,095 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质-蛋白质相互作用对。
DOWNSTREAM TASK DATASETS
Model performance on EC numbers and GO terms prediction tasks
How do prompts determine the processing pathways of structural information?
在图 4(a) 中,可视化了不同神经层的三个预训练提示的跳跃权重,并计算这些跳跃权重的 Pearson 相关性
Can PromptProtein learn multi-level structures?
图 5(a) 说明了以 [MLM] 为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入根据其类型进行分组
图 5(b) 说明了以 [CRD] 为条件的氨基酸嵌入。我们发现氨基酸沿着蛋白质中的序列在二维空间中线性排列。为了获得表示和结构之间更准确的关系,我们比较了蛋白质接触图和嵌入的坐标。它们之间的强相关性表明 CRD 目标可以有效地了解蛋白质 3D 结构的信息。
在图 5(c) 中,我们通过传统的多任务预训练可视化氨基酸嵌入,并突出显示丝氨酸(一类氨基酸)。嵌入尝试同时合并多个结构特征,这导致模式不清晰。
Do downstream tasks benefit from the acquired information on-demand by prompt tuning?
为了进一步分析提示引导微调的重要性,作者对 SAbDab 数据集上的结合亲和力预测任务进行了消融研究。
这些结果证明,并非预训练中的所有结构信息都对下游任务有益,并且通过即时调整自适应地组合获取的信息可以带来更好的性能。
在本文中,我们将提示的概念从 NLP 扩展到蛋白质表示。我们提出了即时引导的多任务预训练和微调框架。通过这个框架,我们提出了三种互补的预训练结构来获取多层次的结构信息,并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明,与传统的 PTPM 相比,所提出的方法可以产生令人满意的改进。