论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》

期刊:Journal of Molecular Biology
SCI分区:2区

摘要

N7甲基鸟苷(m7G)是真核mRNA的5′帽处必不可少的,无处不在的和带正电荷的修饰,调节其输出,翻译和剪接过程。虽然已经开发了几种基于机器学习(ML)的m7G计算预测器,但都利用了特定的计算框架。这项研究是我们探索四种不同的计算框架并确定最佳方法的第一个实例。基于此,我们开发了一种新的预测因子,THRONE(一种用于识别human RNA N7-methylguanosine sites的t hree层集合预测器),以准确识别人类基因组中的m7G位点。THRONE采用输入到多个ML分类器的各种基于序列的特征,并通过集成学习将这些模型组合在一起。三步集成学习如下:在第一层构建了54个基线模型,并将m7G的预测概率视为顺序步长的新特征向量。随后,使用新的特征向量创建了六个元模型,并且它们的预测概率再次被视为新特征。最后,随机森林被认为是使用具有新颖特征的系统方法进行最终预测的最佳超分类器学习器。有趣的是,THRONE在交叉验证分析和独立评估方面在m7G站点的预测方面都优于其他现有方法。所提出的方法可在以下位置公开访问:http://thegleelab.org/THRONE/ 并期望帮助科学界识别推定的m7G站点并制定新的可测试生物学假设。

介绍

N7甲基鸟苷(m7G)已被公认为一种无处不在的转录后RNA修饰。1在转录起始期间,在N处加入甲基7核糖鸟苷的位置。由甲基转移酶共转录催化的5′帽处的m7G修饰导致带正电荷的RNA修饰。 在转移RNA(tRNA)可变环,真核糖核糖体RNA(rRNA)和内部信使RNA(mRNA)中的这种修饰的存在表明它参与各种生物过程,包括基因表达,RNA处理和代谢,转录本的稳定性,蛋白质合成和细胞活力。mRNA生命周期的每个阶段,包括转录伸长率、mRNA剪接、聚腺苷酸化、核输出均受m7G修饰调节。除了参与各种生物功能外,m7G修饰还与几种疾病有关,例如生长缺陷,小头性原始侏儒症,脑畸形和特定自身免疫性疾病的发展。 由于m7G在调控中的重要性,众多的生物过程以及与几种疾病的联系,准确分析m7G分布对于全面了解其机制和生物学功能是必要的。已经使用了几种实验方法来鉴定m7G位点,包括AlkAniline-seq,MeRIP-seq,化学辅助m7G -seq和miclip-seq。 尽管这些实验方法可以准确地识别m7G位点,但它们似乎复杂,费力且成本低廉,无法进行转录组范围的检测。因此,迫切需要开发有效的计算方法来准确识别m7G站点。
计算方法的最新进展催生了许多基于机器学习(ML)的预测模型,用于从人类RNA序列中识别m7G位点。陈先生等开发了第一个ML方法,即iRNA-m7G使用合并到支持向量机(SVM)分类器中的特征融合策略。之后,已经提出了几种方法,m7GFinder,杨等人独立 m7G 型号、m7G 预测器、XG-m7G,m7G-IFL,m7G-DLSTM,BERT-m7G在这些方法中,iRNA-m7G,XG-m7G和m7G-IFL是公开可用的预测因子。值得注意的是,所有这些方法都有助于转录后表观遗传修饰研究的进展。与以前采用直接计算方法的方法不同,我们试图探索四种不同的框架,包括堆叠框架的两种变体,迭代特征表示和用于m7G预测的新型三层集成预测器
我们提出了 THRONE(一种用于识别 human RNA N7-methylguanosine sites 的 three 层集合预测因子),以准确识别人类基因组中的 m7G 位点,其总体框架如图 1 所示。THRONE采用输入到多个ML分类器的各种基于序列的特征,并通过三层集成学习将这些模型组合在一起。这三层涉及以下步骤:(i)我们通过使用九种不同的编码和六种不同的分类器构建了54个基线模型。然后,将基线模型的输出(m7G的预测概率)组合成54-D概率特征向量;(ii) 随后,用54-D特征向量训练了六个分类器,并开发了各自的元模型,其预测概率值被整合以生成6D新特征;(iii)最后,六个分类器接受了6D新特性的训练,并开发了各自的超级学习者性能对比表明,RF classifier略胜一筹;因此,我们选择它进行最终预测。从三层集成学习中获益,THRONE的表现优于本研究中采用的两种堆叠方法和迭代特征表示(IFR)。此外,THRONE在交叉验证分析和独立评估方面都优于现有的最先进的m7G预测预测器。因此,我们期望我们提出的方法能够有效和准确地筛选推定的m7G,从而加快实验验证,以在未来解开其功能机制。
论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第1张图片

数据和方法

数据集和特征编码

开发预测模型需要高质量的训练数据集。本文采用了与前一工作中相同的训练数据集,考虑了标准训练数据集,并使用它来构造现有的预测变量。非冗余数据集包含 741 个 m7G 和 741 个非 m7G 样本。值得注意的是,m7G经过实验验证,来自人类细胞系(HeLa和HepG2细胞),包括41个核苷酸,上游20个,下游20个,以及中心的修饰位点。然而,中心含有鸟苷的阴性样品,其中41个核苷酸来自人类基因组,没有通过MerIP-seq方法检测到,这导致大量。因此,为了避免由不平衡数据引起的潜在偏倚(高特异性(Sp)和低灵敏度(Sn)),他们选择了741个序列,这些序列具有<80%的序列相似性,并且被认为是非m7G的。因此,使用这种高质量数据开发预测模型可以公平地将我们的预测模型与现有预测因子进行比较。
由于现有方法没有使用独立数据集进行评估,因此必须构建这样的数据集来检查训练模型的鲁棒性。在这方面,我们使用以下过程构建了一个独立的数据集。首先,从m6A-Atlas下载m7G序列27并且只考虑HeLa细胞序列。随后,我们排除了与我们的训练数据集共享80%序列同一性的序列,从而产生了334个m7G序列。其次,按照Chen等人的程序构建阴性样品,随机选择3340个序列。
在这里,我们采用了九种不同的编码[单核苷酸二元编码(MBE),NCPD是核苷酸化学性质和核苷酸密度的组合,DBPF是二核苷酸二元谱和二核苷酸频率的组合,必需核酸组成(ENAC),数值表示特征(NRF),K的组成-间隔核酸对(CKSNAP),Kmer组成的整合(Kmer),串联相关伪二核苷酸组成(SCPseDNC)和最大互信息(MMI)]和六个ML分类器[随机森林(RF),SVM,极随机树(ERT),梯度增强(GB),AdaBoost(AB)和极限GB(XGB)]。

结果和讨论

基于 100 倍 10 倍交叉验证的 9 种编码的 6 种不同分类器的性能评估

这项研究采用了九种编码,从不同角度的序列信息中提取特征,并评估了它们在从非m7G中分类m7G中的潜在作用。通常,在训练数据集上一次性运行 k-fold 交叉验证可能会导致模型性能的噪声估计,因为训练数据的不同分区可能会导致不同的结果。但是,重复的 k 倍交叉验证提供了一种提高 ML 模型估计性能的方法,但它在计算上是昂贵的。为此,我们选择了一个计算成本高昂的过程,并使用对训练数据集进行 100 倍 10 倍交叉验证测试来估计每个基于特征的特定分类器模型(单特征编码 (SF) 模型),其平均性能和标准偏差如图 S1 所示。
论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第2张图片
我们发现,对于三个分类器(RF、ERT 和 GB),九个 SF 模型具有类似的整体性能模式。为了清楚起见,我们将这些SF模型性能按Matthews相关系数(MCC)分为三类(C1:{MBE,DBPF和NCPD);C2: {ENAC, Kmer, CKSNAP, and NRF};和C3:{SCPseDNC和MMI}),我们注意到C1实现了类似的性能,略优于C2,明显优于C3。此外,就XGB而言,除MMI外,其余八款SF型号均有类似的表现。对于其余两个分类器(SVM和AB),九个SF模型的性能非常多样化,并且仍然可以将它们聚类为三组,但是三个组之间的成员在SVM和AB之间也不同,并且也不同于上面提到的三个分类器(RF,ERT和GB)。总体而言,我们观察到以下观点:(i)无论分类器如何,基于MBE的模型始终获得最佳性能。(ii)相同的特征(例如,CKSNAP)与不同分类器的性能变化,强调了在模型构建过程中利用多个分类器的重要性。(iii)C3组的成员无论分类器如何,都达到了∼0.6的MCC,这表明他们也具有合理的判别能力

THRONE的构造

我们采用了三层方法来建造王座。首先,我们考虑了所有54个SF模型,统称为基线模型或layer1模型。尽管文献中报道了几种整合基线模型的方法,我们采用了元预测因子方法。简而言之,我们获得了这些第1层模型的输出(m7G的预测概率),并集成了一个54-D特征向量。随后,使用54-D特征向量独立训练了六个分类器,并使用100倍10倍交叉验证开发了各自的元模型(统称为layer2模型)(图2(A))。性能比较分析表明,meta(m)AB和mSVM取得了类似的性能,优于其余四个元分类器(mRF,mERT,mGB和mXGB)。
论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第3张图片
我们没有从元分类器中选择最佳模型,而是从六个元分类器中计算了m7G的预测概率,并集成了一个6D新特征向量作为layer3模型开发的输入。然后,利用精确的重复交叉验证技术,我们训练了六个分类器并开发了各自的超级学习器模型。图2(B)显示,所有超级分类器学习器都实现了类似的性能,超级学习器RF的MCC略优于其他型号。因此,我们选择了sRF作为最终模型,并将其命名为TONGE。TONGE实现了MCC,精度(ACC),Sn,Sp,ROC曲线(AUC)下的面积分别为0.900,0.950,0.950,0.951,0.966。总体而言,与layer2和layer1模型相比,THRONE的改进是显着的。具体而言,与第2层模型相比,MCC的THRONE改进为4.0-5.5%,ACC为2.0-2.8%,Sn为1.7-2.6%,Sp为1.5-3.8%。与 53 个 SF 型号(不包括异常值)相比,THRONE 在 MCC 中提高了 8.89–33.9%,在 ACC 中为 4.45–17.06%。对比分析表明,三层方法通过整合layer1和layer2模型显著提高了预测性能。

使用不同的方法构建模型

除了 THRONE 框架之外,我们还采用了两种不同版本的堆叠框架和 IFR。每个框架结构及其性能的简要说明如下:
(i) Stack1:受到最近方法的启发 STALLION23和 ACPredStackL,36我们用类似的方法开发了第一个堆叠模型。首先,我们将所有九个特征编码连接起来,生成包含1634D的混合特征,将它们独立输入到六个分类器中,并开发了各自的模型。如图 S2(A) 所示,AB 和 XGB 在 MCC 范围为 0.826–0.830 时实现了类似的性能,明显优于其余四个分类器。值得注意的是,混合特征尺寸太大,可能包含重叠和不必要的信息,从而影响模型性能。因此,我们应用了两步特征选择技术,包括排名特征和顺序前向搜索(SFS),以从混合特征中排除信息较少的特征。通常,特征分级方法(RF 和 F 分数)为所有给定特征分配一个分数。 但是,XGB 仅将分数分配给关键特征,并通过分配零来排除大多数特征。在这里,我们应用了 XGB 分类器,选择了 448 个特征,并根据其等级对它们进行了排序。随后,SFS应用于448个特征,步长为两个特征,其性能如图S2(B)所示。对于四个分类器(RF、ERT、GB 和 SVM),性能稳步提高并达到最大 ACC,并且随着功能的不断添加而下降性能。而在SVM和AB的情况下,在达到最大ACC后,性能保持平衡。有趣的是,RF、ERT、GB、AB、SVM 和 XGB 分别实现了最佳性能,分别为 36、48、34、388、106 和 392-D(图 S2(B))。六个分类器之间的性能比较表明,AB再次更优越(图S2(C))。然后,将来自六个分类器的m7G预测概率值分别与六个不同的分类器连接和训练,并记录性能(图S2(D))。结果表明,除GB外,五个分类器的性能相似,我们选择AB作为Stack1的最终模型,因为它在所有步骤中都具有一致的性能。此外,与混合特征相比,每个分类器的堆叠方法显著改进了其模型。
论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第4张图片

(ii) Stack2:受到最近方法Porpoise的启发,24我们用类似的方法开发了第二个堆叠模型。首先,我们从图 S1 中为每个分类器选择了最佳的 SF 模型。值得注意的是,MBE 编码在所有六个分类器中都实现了最佳性能。其次,计算并集成了来自基于MBE的六个分类器的m7G的预测概率作为新功能,再次独立地使用所有六个分类器进行训练并比较其性能。图 S3 显示,基于 AB 的模型在 MCC、ACC、Sn、Sp 和 AUC 为 0.810、0.905、0.904、0.906 和 0.953 时实现了卓越的性能。具体而言,与其他分类器相比,AB的ACC改进高出0.28-1.03%。因此,我们为Stack2选择了基于AB的模型。
论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第5张图片
(iii) IFR:从图S2(D)获得的每个分类器的堆叠模型,并使用与以前研究相同的程序采用IFR。 值得注意的是,每个模型都有6D输入特征,并且从训练模型到m7G的预测概率被合并到6D特征中,并在第一轮迭代过程之前获得7D特征。我们重复了此过程 20 次,相应的性能如图 S4(A) 所示。结果表明,所有分类器性能在第 12 次迭代后逐渐提高并达到最大 ACC,并保持稳定状态(SVM 除外)。接下来,我们比较了从IFR获得的每个分类器的最佳模型之间的性能。结果表明,四个分类器(RF、ERT、GB 和 SVM)的性能与 MCC 在 0.893–0.894 和 ACC 0.947 范围内相似,略优于 AB 和 XGB(图 S4(B))。但是,我们为IFR选择了基于RF的模型,因为它在MCC方面略微优于其他分类器。
论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第6张图片

THRONE性能与其他方法的比较以及训练数据集上的现有预测因子

在将 THRONE 性能与现有预测因子进行比较之前,我们将其与本研究中研究的其他三种方法(Stack1、Stack2 和 IFR)进行了比较(图 3(A))。在这三种方法中,IFR在所有五个指标中都取得了最佳性能。具体而言,MCC的IFR提高了6.5-8.32%,ACC提高了3-4.2%。然而,与 THRONE 相比,IFR 极具竞争力,在全球指标中的表现略低,包括 MCC(0.895 对 0.900)和 ACC(0.947 对 0.950)。由于 THRONE 在本研究采用的不同方法中取得了最佳性能,因此我们将其选为 m7G 预测的最终预测因子。我们的结果表明,在同一数据集上利用多种计算方法的优势在于,人们可以了解每种方法的优缺点,这最终可以导致选择最佳方法/模型
其次,我们将 THRONE 与公开可用的三个最先进的预测因子(即 iRNA-m7G、XG-m7G 和 m7G-IFL)进行了比较。值得注意的是,所有现有方法和当前方法都是利用相同的训练数据集开发的。因此,这些方法之间的性能比较是公平的,并将为实验者选择合适的工具提供概述。图3(B)显示,THRONE在五分之四的指标中显着改善。具体而言,THRONE在MCC中比现有方法高出5-10.0%,在ACC中高出2.5-5.2%,在Sn中高出2.6-6.3%,Sp高出2.6-4.0%。在AUC中,THRONE类似于XG-m7G,并且优于现有其他预测因子。
论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第7张图片

THRONE与现有方法在独立数据集上的性能比较

与现有方法不同,我们在独立数据集上评估了 THRONE 以及现有方法。表1显示,THRONE分别实现了MCC,ACC,Sn,Sp和AUC的0.568,0.886,0.877,0.887和0.871。由于评估数据集不平衡,因此 MCC 指标适合比较这两种方法。具体来说,与iRNA-m7G和XG-m7G相比,MCC的BE THRONE改善率为19.0-27.3%。在现有方法中,m7G-IFL的性能不如随机预测。预测变量很可能在训练期间过度优化。表 1 还包括我们其他三种方法的性能,其中两个堆栈模型的性能优于现有的预测变量,并且低于 THRONE。论文解读《THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites》_第8张图片

你可能感兴趣的:(笔记,机器学习,python)