[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(二)

文章目录

  • 三、Deepphos框架和模型训练
  • 四、性能比较
  • 五、补充说明
    • 1.比较深度学习架构的详细信息
    • 2.一维蛋白质序列的卷积运算
  • 六、总结

接上一篇文章:
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(一)

三、Deepphos框架和模型训练

在这里插入图片描述
在这里插入图片描述表示第k个DC-CNN块中的卷积层C生成的特征图。这样,将多个特征映射连接起来,然后通过一个flatten层转换为一维张量。然后应用全连接的神经网络生成最终的softmax函数的输入。最后,计算出磷酸化的预测评分如下:
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(二)_第1张图片
在这里插入图片描述q表示要预测的类别数,在这里插入图片描述介于 0 和 1 之间。
在这项研究中,磷酸化预测任务是一个二元分类问题,因此非磷酸化的得分可以表示为:
在这里插入图片描述
采用二进制分类问题的标准交叉熵作为成本函数,以最小化训练误差:
在这里插入图片描述
其中N指训练样本总数,x j 指第j个输入局部序列,y j 指第j个输入序列对应的磷酸化状态标签。此外,为了缓解过拟合,在训练中采用了 L2 正则化,因此 DeepPhos 的最终目标函数定义为:
在这里插入图片描述
其中k是正则化系数,W2表示权重矩阵的L2范数。在本研究中,在训练过程中使用了 mini-batch 策略,根据每个 epoch 的 mini-batch 将训练数据集随机分成几个部分。我们选择 Adam 优化器,这是一种广泛使用的优化器,可以自动调整学习率。

DeepPhos可用于磷酸化位点预测,包括组、家族、亚科或个体激酶水平的一般和激酶特异性预测。为此,对于一般的磷酸化位点预测,所有可用的S/T和Y磷酸化位点数据都被用于训练深度学习模型。另一方面,深度学习模型对激酶特异性磷酸化位点预测的训练更具挑战性,因为目前大多数已验证的磷酸化位点都缺乏相应的激酶注释。为了解决这个问题,本文首先通过不需要激酶注释的磷酸化数据来训练和验证了一个深度学习模型Mp。然后,本文利用激酶特异性的训练和验证数据,进一步微调Mp,获得最终的深度学习模型Mt。在本研究中,本文采用了迁移学习微调策略,在Mp中转移网络,包括所有DC-CNN块的卷积层、intra-BCL块的卷积层,以及与卷积层相关的学习权重矩阵和偏差项。

四、性能比较

为了评估磷酸化位点预测的性能,本研究采用了几种常用的统计测量方法,包括灵敏度 (Sn)、特异性 (Sp)、总体准确度 (Acc)、精密度 (Pre)、马修相关系数 (MCC) 和 F1分数。详细定义如下:
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(二)_第2张图片
在这里插入图片描述
在这里插入图片描述

这里,TP 是预测中正确分类的正样本数,TN 表示预测因子正确分类的负样本数。 FP 和 FN 分别表示被错误分类的正样本或负样本的数量。因此,Sn 是指被预测变量正确分类的真阳性样本的百分比,同样,Sp 是真阴性样本的百分比。 Pre表示预测器产生的真阳性样本的比例,MCC表示正负数据的平衡质量,F1 score是综合考虑精度和召回率的指标。此外,我们还使用受试者工作特征(ROC)曲线以及 ROC 曲线下面积(AUC)来评估整体性能,ROC 曲线越靠近左角,AUC 值越接近 1,这表明整体性能更好。

本文首先比较了DeepPhos与不同的深度学习网络架构,包括CNN、RNN、全连接神经网络(FCNN)和LSTM。这些方法对S/T和Y的AUC值列于表1。总的来说,DeepPhos比其他深度学习架构获得了更高的AUC值,这表明DeepPhos具有更好的整体性能。除了 AUC 值外,本研究还计算了 Sn、Sp、Acc、MCC 和 F1 分数,以评估 DeepPhos 的性能。
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(二)_第3张图片
本文又将DeepPhos与一些现有的激酶特异性预测工具进行了比较,包括基于独立测试数据的PPSP,GPS和MusiteDeep。在S / T和Y位点上选择了一些激酶组,家族,亚科和个体激酶,这些激酶的样本量最大,用于性能评估。评估结果表明,在激酶特异性磷酸化位点预测中,本架构的性能也较好
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(二)_第4张图片

五、补充说明

1.比较深度学习架构的详细信息

我们将介绍比较的深度学习架构的细节,其中包括 CNN、RNN、LSTM、FCNN 的参数。它们都是由带有 Tensorflow 后端的 Keras 库实现的。作为比较,深度学习框架使用相同的磷酸化位点数据集,包括训练、验证数据集来训练和建模,并在相同的独立测试数据集中进行评估。
CNN模型中使用的架构和参数:该模型包含五层,包括输入层、卷积神经网络层、flatten层、全连接层和softmax层,这里使用的损失函数是交叉熵,优化器这里使用的是Adam

  • 1.输入层:输入为蛋白质序列,序列窗口大小设置为33,嵌入到下一层的one-hot编码中。如果蛋白质序列的长度小于 L,则剩余位置将用符号填充。
  • 2.卷积神经网络层:在卷积层,有64个特征图,核大小为5,strides为1,激活函数为ReLU。
  • 3.Flatten layer:在flatten layer中,特征图被展平为一维特征。
  • 4.全连接层:全连接层有32个神经元,激活函数为ReLU。
  • 5.Softmax层:输出层,有磷酸化和非磷酸化对应的2个神经元,激活函数为softmax。

[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(二)_第5张图片

2.一维蛋白质序列的卷积运算

输入是长度为 L 的给定序列的 one-hot 编码的序列特征,然后对输入应用 n 核卷积运算。下一步是激活神经元,а指的是激活函数(这里是ReLU)。最后,特征图由不同激活神经元的连接生成。
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(二)_第6张图片

六、总结

文章提出了DeepPhos,这是一种用于预测蛋白质磷酸化的新型深度学习架构。与多层卷积神经网络不同,DeepPhos由密集连接的卷积神经元网络块组成,可以捕获序列的多种表示形式,通过块内串联层和块间串联层进行最终磷酸化预测。DeepPhos还可用于激酶特异性磷酸化位点预测,不受组,家族,亚科和个体激酶水平的影响,且性能较好。

你可能感兴趣的:(论文阅读,深度学习,人工智能,神经网络)