文章地址:https://www.sciencedirect.com/science/article/pii/S0010482522004954
DOI:https://doi.org/10.1016/j.compbiomed.2022.105717
期刊:Computers in Biology and Medicine
影响因子/JCR分区:6.698/Q3
发布时间:2022年6月8日在线
GitHub:https://github.com/jieluyan/Multi-Branch-CNN
对离子通道具有高亲和力的配体肽对于调节跨质膜的离子通量至关重要。这些肽现在被认为是许多疾病的潜在候选药物,例如心血管疾病和癌症。在这项工作中,作者开发了 Multi-Branch-CNN,这是一种具有多个输入分支的 CNN 方法,用于从特征内和特征间类型中识别三种类型的离子通道肽结合剂(钠、钾和钙)。至于其实际应用,需要能够识别与训练序列具有高或低相似性的新序列的预测模型。为此,作者在两个测试集上测试了开发的模型:一个通用测试集,包括与训练集具有不同相似度的序列;以及一个新的测试集,仅包含与训练集序列几乎没有相似之处的序列。最终的实验结果表明,Multi-Branch-CNN 方法的性能优于13种传统机器学习算法,钠、钾和钙离子通道在测试集的准确率分别提高了3.2%、1.2%和2.3%,在新测试集上分别提高了8.8%、14.3%和14.6%。作者通过将 Multi-Branch-CNN 与具有一个输入分支 (Single-Branch-CNN) 和集成方法 (TML13-Stack) 的标准 CNN 方法进行比较来确认它的有效性。
离子通道是在膜中形成孔的跨膜蛋白家族。它们调节细胞中阳离子或阴离子的流入和流出。由于离子通道在可兴奋和不可兴奋组织中都发挥着重要作用,因此它们是许多疾病的有吸引力的治疗靶点,包括神经系统疾病、心血管和代谢疾病以及癌症。结合离子通道的肽在调节穿过质膜的离子通量中起重要作用,它们是常用于各种离子通道和受体的药理学表征的分子。然而,由于生物物理实验的复杂性,测量离子通道活性的实验方法并不总是容易执行。随着高通量筛选的进步,可以获得表达肽序列的生成,然而,这些大量序列数据的准确功能注释仍然是一个挑战。通过计算方法预测蛋白质的离子通道抑制肽有助于识别候选序列以进行进一步实验。
虽然有一些计算工作可以解决离子通道的肽预测,但其中大多数使用有限的机器学习 (ML) 和特征编码方法。此外,没有发布可用的预测工具,专用于离子通道相互作用肽的公共数据库也很有限。
近年来,人们对使用 ML 或深度学习 (DL) 方法预测功能性肽的兴趣急剧增加。特别是,卷积神经网络 (CNN) 已被证明在学习肽的编码序列模式方面是成功的。 CNN 的优点是通过卷积层自动和分层学习近端和远端特征。
在目前的工作中,作者提出了一种名为 Multi-BranchCNN 的深度学习方法,用于基于 CNN 的离子通道肽预测。术语多分支背后的想法是,预测器不仅可以通过多个输入 CNN 分支接受和学习来自单一特征类型(即特征内)的信息,而且还有不同特征类型(即特征间)之间的信息。机器学习中一个特殊挑战是从大量不同的蛋白质或肽描述符中确定其中哪些包含与手头的预测任务高度相关的特征。使用特征选择方法的详尽或启发式搜索总是计算密集型的,并且可能不会导致最佳模型。由于每种特征类型都包含完整但不同的肽视图,因此应将特征类型中的所有特征视为一个集合。尽管在文献中没有明确讨论,但普遍认为,当一个特征类型被选择用于模型构建时,它的所有特征都将被包括在内。然而,传统的特征选择方法,如 mRMR(最大相关最小冗余)、ANOVA(方差分析)和 IFS(增量特征选择)独立考虑每个特征,并在选择过程而不是考虑整个特征集。当发现多种特征类型在学习特定数据集时表现同样出色时,通常情况下,这些特征通常组合形成特征矩阵作为学习引擎的输入;或者,可以使用每种特征类型来训练一个单独的模型,最后将这些不同的模型组合起来产生一个预测。使用Multi-BranchCNN,可以将一组性能良好的特征类型共同包含在学习过程中,并且可以一起学习来自特征内和特征间的信息。在 Multi-Branch-CNN 与 13 种传统 ML 方法 (TML13) 的比较研究中,Multi-Branch-CNN 在一般测试用例(跨越与训练集中不同相似度的测试序列)中表现出更好的性能。然而,当测试新序列时——与训练集中的序列几乎没有或没有序列相似性的序列——与 TML13 相比,Multi-Branch-CNN 显示出分类准确性的显着提高。此外,为了确保 Multi-Branch-CNN 的有效性,将其性能与只有 1 个 CNN 输入分支和一个集成方法 TML13-Stack 的 Single-Branch-CNN 进行了比较。在这项工作中,作者还探索了准备负数据集的不同方法,并表明正确处理的负数据对于开发可靠的预测模型至关重要。
iFeature 包用于通过生成 21 种不同的特征类型(如 AAC、CSKAAP、DPC 等)和 233 个不同的 PseKRAAC 特征组来对肽序列进行数字编码。本研究中使用的所有特征类型列于表 7 中。
Pseudo K-tuple Reduced Amino Acid Composition (PseKRAAC) 是一类蛋白质特征生成方法,可通过实施简化的氨基酸字母表 (RAAC) 编码肽或蛋白质特征。该方法以不同的方式对相关氨基酸进行分组,尝试减少序列数据中的信息冗余,生成复杂度较低的特征矩阵,从而避免过拟合。 PseKRAAC 共有 250 个功能组,但删除了 20 个组的 RAAC。太大(即 20 组)的 RAAC 与 AAC 相同,即未应用缩减编码。经过作者的初步测试,只有 233 个 PseKRAAC 特征组被进一步用于特征选择步骤。在 PseKRAAC 特征生成中使用了以下参数:ktuple= 2、gap-λ = 1、gap = 0 和 λ-correlation = 4
由于考虑了许多特征类型(总共 254 个),因此检查特征类型的所有组合在计算上是令人望而却步的。然而,为了获得特征类型的最佳组合,作者首先检查了每种特征类型的预测能力,并只选择那些表现相当好的那些。然后,测试这些特征类型的组合以确定最佳特征编码方法。
每种特征类型的预测性能是使用 TML13 度量来测量的。总共进行了 39,624 次(254 种特征类型 × 13 ML 算法 × 3 离子通道类型 × 4 负数据集生成方法)实验,用于单特征类型选择。
作者计算了所有最佳特征组合的 TML13 指标,并使用 CDHit 数据生成方法通过所有三个通道的平均准确度对它们进行排序。最好的特征组合表示为 {best-1, best-2, . . . , best-K} (K ∈ {1, 2, … , 30}),其中 best-K 表示第 K(K ∈ {1, 2, … , K}) 的特征类型在所有三个中的平均准确度最高在训练集上使用 CDHit 数据生成方法的通道。
为了在特征选择中做出预测性能并与 Multi-Branch-CNN 方法进行比较,使用了 TML13 方法,由 13 种传统 ML 算法组成(如表 8 所示)。
TML13-Stack 是一种两级方法,它首先根据训练集上 5 倍交叉验证准确度的平均值对 13 种算法(如表 8 所示)进行排序。具有第 2 高到第 13 高算法的预测作为第二层的输入,具有第1高算法的预测可以作为分类算法进行最终预测。
在预测与离子通道相互作用的肽段时,传统的 ML 方法表现得非常好。然而,作者观察到的一个有趣现象是,不同的特征类型可以给出非常相似的预测性能,这使得准确选择特征子集变得困难。这里提出的方法的想法是利用不同特征类型的预测能力,而不需要详尽的特征选择。通过基于所选特征类型训练单个 CNN 模型,然后将所有 CNN 模型的独立预测结合起来,以获得更好的组合预测。训练过程旨在并行训练模型,因此命名为“Multi-Branch-CNN”。在说明 Multi-Branch-CNN 模型之前,将首先描述一个通用的 CNN 模型,称为 Single-Branch-CNN,以便于理解。
输入 Best-K,其中 K ∈ {1, 2, …, K},表示在特征选择阶段选择的 best-K 特征组合中的 best-K(本文为 18 个,参见图 3)。
为了找到信息最丰富的特征类型作为所提出的 Multi-Branch-CNN 方法的输入,作者测试了 254 种不同的单一特征类型及其与 13 种常用 ML 算法 (TML13) 的组合。对所有 3 种类型的离子通道相互作用肽(Na-pep、K-pep、Ca-pep)独立进行测试。虽然正样本是经过实验验证的序列,但负样本是从 UniProt 数据库中收集的那些功能上不相关的肽或那些通过计算生成的。生成负数据的 4 种不同方法称为 Normal、CDHit、Random 和 Shuffle。每个数据集都分为训练集、测试集和新测试集。测试集包含从训练集中的每个序列簇和新测试集的所有序列中选择的序列,其中新测试集包含与训练集中的序列几乎没有或没有序列相似性的序列,并且是真正的看不见的序列。代替传统的随机抽样,从每个集群中收集测试序列确保了总体的多样性在测试集中得到了体现,因此测试性能应该更好地反映模型的实际性能。
对于特征选择,作者选取了排名前 30 的特征类型,并详尽地搜索了一个特征组合,即 best-K 特征组合 (K ∈ {1, 2, … , 30}),使用 TML13 产生了最好的结果。最后,选择 best-18 特征组合作为 Multi-Branch-CNN 的输入。
为了概述使用传统 ML 算法的所有单特征类型模型的预测能力,作者绘制了图 1 中四种数据生成方法的所有单特征模型在三个通道上的训练、测试和新颖测试结果的分布。 如图1(A)所示,Na-pep 模型在训练集和测试集上的表现都优于 K-pep 和 Ca-pep 模型,但在新的测试集中,Ca-pep 模型表现最好。作者还注意到,K-pep 的训练集是三者中最大的,而 Ca-pep 的训练集是最小的。这似乎表明训练集的大小不仅在相似肽(测试序列)的预测中起作用,而且可能对不同肽(新测试序列)的预测准确性产生负面影响。
图 1(B) 比较了使用不同负数据集生成方法构建的模型的性能。可以观察到,在大多数单一特征编码模型中,Normal 和 CDHit 的性能优于 Shuffle 和 Random。而且CDHit的密度曲线与Normal的密度曲线对比表明,前者更平滑,后者波动更大。对此的一种可能解释是,CDHit 中的数据样本分布更均匀,因为非常相似的序列已被过滤掉以确保它们在数据集中不会过度表示。所以可得出结论,使用 CDHit 为 ML 创建非冗余数据集是一个有益的过程。此后,CDHit 用于处理最终的负数据集,随后用于创建生产模型。
图2显示了使用不同的训练集预测每个通道的肽的每种算法的平均性能的热图。每个值平均超过 254 个单一特征类型(21 个特征类型和 233 个 PseKRAAC 特征组)。
为了确定创建通道肽预测的最佳模型需要多少特征类型,作者评估了 best-1、best-2、best-3 等最多 30 个特征类型的组合,其中排名每种特征类型都是基于使用 CDHit 数据集的 TML13 ACCtr 得分。由于计算资源有限,仅选择排名前 30 的特征类型进行组合搜索,不再选择更多。如图 3 所示,就平均交叉验证精度而言,所有三个通道都获得了最佳模型,并具有 18 个特征的最佳组合。最好的特征类型来自 PseKRAAC 特征组,不同之处在于它们的类型和减少的氨基酸簇的数量。 best-18 特征列在表 1 中,交叉验证准确度在图 3 中。可以看出,一些测试准确度可以达到训练集的平均交叉验证准确度,但新测试准确度的表现要远低于训练集的测试准确率和平均交叉验证准确率的差异,在图 1 的单个特征选择图中显示了相同的趋势。
使用 best-18 特征组合和 CDHit 训练集,作者为 Na-pep、Kpep 和 Ca-pep 创建了最终的最优 Multi-Branch-CNN 模型。这些模型针对所有三个通道的测试集和新测试集进行了测试。训练和测试实验重复 5 次,并报告平均性能指标。
在传统的 ML 或单个 CNN 学习中,特征选择对于消除冗余特征以实现更低的模型复杂度和更高的准确度非常重要。在依赖多种特征类型来实现良好性能的肽预测模型中,这些特征类型可能包含许多冗余特征。 Multi-Branch-CNN 的目的是处理具有鲁棒性的冗余特征,因此无需详尽地选择它们。为了支持这个的观点,作者将提出的 Multi-Branch-CNN 模型与具有相同架构但删除了所有冗余特征的模型进行了比较。为此,在将 1D 特征向量转换为 2D 方阵之前,与之前 CNN 分支中的特征类型相比,来自第二个 CNN 和后续分支的输入特征类型的所有冗余特征都被删除。
尽管 Multi-Branch-CNN 优于 TML13,但不足以证明它优于只有一个输入分支和集成方法的普通 CNN 方法。因此,作者创建了 Single-BranchCNN,它使用了 Multi-Branch-CNN 架构,将所有 best-18 特征组合到一个输入矩阵中,并将其性能与 Multi-Branch-CNN 进行了比较。此外,还开发了 TML13-Stack 来测试 Multi-Branch-CNN 是否比集成方法表现更好。在这里,在特征选择阶段选择的相同的 best-18 特征组合被用作所有四种方法(TML13、TML13-Stack、Single-Branch-CNN 和 Multi-Branch-CNN)的特征编码方法。
图4显示了通过五次实验重复获得的四种方法的平均准确度,即 TML13、TML13-Stack、Single-Branch-CNN 和 Multi-Branch-CNN。
在这项工作中,作者提出了一种具有多个输入分支的 CNN 方法(Multi-Branch-CNN)来预测钠、钾和钙离子通道相互作用的肽。作者广泛地测试了一个大数量的特征编码方法(总共 254 种),并将它们优先用于模型构建。讨论了四种不同的生成负数据的方法,发现使用方法 CDHit 是一个可靠的预处理步骤,可以生成一组有助于预测建模的负序列。为了测试方法在真正看不见的序列上的预测性能,这在现实世界的应用中经常出现,作者创建了新的测试集,其中的序列与训练集中的序列几乎没有相似性。基于进行的广泛实验,可以证实,虽然 Multi-BranchCNN 在预测一般测试序列方面可以达到与最佳传统机器学习模型 (TML13) 相当的性能,但它在预测新测试序列预测方面显示出 9%–15% 的显着改进。所有三通道肽。我们还发现,Multi-Branch-CNN 方法的性能优于集成算法(TML13-Stacked)和只有一个输入分支的普通 CNN 方法(Single-Branch-CNN)。
然而,建立离子通道肽预测模型的一个主要限制是数据有限。未来,将探索使用具有未知离子通道活性的相关肽数据(例如毒素肽),通过半监督学习来提高模型性能。可以尝试其他深度学习方法,例如循环神经网络 (RNN) 和长短期记忆 (LSTM),还应该探索使用生成对抗网络 (GAN) 进行肽设计。