期刊:Bioinformatics
动机:n4-甲基胞嘧啶(4mC)是一种重要的表观遗传修饰,调节广泛的生物过程。然而,检测4mC位点的实验方法是耗时和劳动密集型的。作为一种替代方法,能够通过数据分析技术自动识别4mC的计算方法成为一种合理的选择。一个主要的挑战是如何开发有效的方法来充分利用DNA序列内复杂的相互作用来提高预测能力。
结果:在这项工作中,我们提出了MSNet-4mC,这是一种轻量级的神经网络,基于多尺度接受域的卷积操作,以感知给定DNA序列的短范围和长期范围内的交叉元素关系。由于不同物种的候选物种数量存在很强的不平衡,我们在交叉熵损失中计算并应用类权值来平衡训练过程。大量的基准测试实验表明,我们的方法取得了显著的性能改进,并优于其他最先进的方法。
可用性和实现:源代码和模型可以在https://github.com/LIU-CT/MSNet-4mC上免费下载,用Python实现,并在Linux和Windows上得到支持。
DNA甲基化是一种重要的表观遗传修饰类型,参与多种生物过程,如基因表达调控、染色质组织调控、转座子沉默或生命所有领域的基因组印迹(Arand et al.,2012;格林伯格和Bourc‘his,2019;Jeudy等人,2020;琼斯,2012)。5-甲基胞嘧啶(5mC)、N6-甲基腺嘌呤(6 mA)和N4-甲基胞嘧啶(4mC)是基因组中三种常见的DNA甲基化类型(Davis等,2013;Roberts等,2015)。亚硫酸氢盐测序技术是检测全基因组DNA甲基化位点的常用技术。它可以检测5mC修饰,但不能用于识别6个mA和4mC修改(Barros-Silva等人,2018)。单分子实时(SMRT)测序方法作为检测这三种修饰的有效方法具有重要的实用价值(Flusberg et al.,2010)。然而,它是昂贵、耗时和劳动密集型的,特别是对于大规模的检测实验。近年来,机器学习和深度学习在计算机视觉、自然语言处理和文本推理等领域取得了显著的成就,甚至在各种场景中都超过了人类的表现(Cai等人,2019;傅等人,2021;郭等人,2022)。目前,它们已被应用于从生物序列中提取信息,以探索和理解其潜在的相关性。关于DNA 4mC位点的预测,有几种计算方法已经开发。通过应用传统的基于机器学习的方法和最近的基于深度学习的算法,已经取得了良好的性能。在这些方法中,iDNA4mC(Chen等人,2017)是Chen等人提出的第一个基于支持向量机的预测器来预测4mC位点。该数据集首先由Chen等人构建,并根据MethSMRT数据库进行进一步筛选(Ye et al.,2016),这是后期研究中常见的数据集。从那时起,一些传统的基于机器学习的方法被提出,包括4mCPred(他等人,2019),4mcPred-SVM(Wei等人,2019a),Meta-4mCpred(马纳瓦兰等人,2019)和4mcPred-IFL(Wei等人,2019b)。最近,基于深度学习的方法已被应用于解决这一任务。据我们所知,4mCCNN(Khanal et al.,2019)是第一个基于深度学习的4mC站点预测方法,它利用一个热编码作为输入和两个卷积操作。在最近的另一项工作中,DeepTorrent(Liu et al.,2021)集成了四个关键特征,并堆叠了多层卷积神经网络、注意层和双向长短期记忆,从而导致了最先进的性能。补充表S1列出了现有的4mC站点预测方法的计算算法和特征的关键特征。总的来说,绝大多数的竞争解决方案依赖于多种编码表示来有效地利用序列信息和物理化学性质或复杂的级联策略来提高预测能力。
虽然DNA 4mC位点预测任务已经研究了好几年,但在挖掘DNA序列内的相互作用和整合其他物种序列中隐含的信息方面存在着巨大的挑战,这是本研究的重点。在此,我们提出了MSNet-4mC,这是一种基于深度学习的计算架构,由一个开放的卷积层、两个类似的块和两个完全连接的层组成。基于对生物序列中复杂上下文依赖性的研究,我们构建了基于卷积操作的多尺度感受域结构,以感知长期和短期关系,以提高预测能力。此外,该方法不仅在不使用复杂编码方案作为输入的情况下,从一个热编码特征中提取有用的信息,而且还考虑了不同物种之间的样本不平衡情况,并利用类权重调整损失。我们进行了一系列的实验,以基准我们的方法的性能。实验结果表明,该方法能够有效地识别4mC位点,且优于目前最常用的识别方法。
在本研究中,我们采用两个数据集来评估MSNet- 4mC对DNA 4mC位点的识别能力。第一个数据集由Chen等人(Chen等人,2017)构建,最初来源于MethSMRT数据库。它由六个物种组成,即,C.elegans,D.melanogaster, A.thaliana, E.coli, G.subterraneus, and G.pickeringii.采用改良QV(modQV)评分大于30,CD-HIT的临界值为0.8,获得阳性样本。modQV评分的默认阈值为30分(Chen et al.,2017)。使用CD-HIT软件去除相似性较高的冗余序列(Fu et al.,2012)。所有阳性样本的序列长度均为41bp,4mC位点位于中心。相应的阴性样本与中心的胞嘧啶长度相同,但通过SMRT测序技术未检测到。因此,存在大量的样本可能是阴性样本。为了生成一个平衡的数据集,Chen等人。随机抽取每个物种与阳性样本相同数量的阴性样本。本文根据每个物种的14:1的比例,将样本随机分为训练数据集和测试数据集。对于每个训练或测试数据集,它有相同数量的正样本和负样本。表1提供了数据集的统计摘要。为了便于描述和比较,我们对第一个数据集使用了与Liu等人(2021年)相同的名称Lin_2017。
第二个数据集首先由Liu等人使用(Liu等人,2021年),即Li_2020。与Lin_2017数据集类似,它也来自于MethSMRT数据库,由6个物种组成。在该数据集中,选择modQV评分大于30,CD-HIT的截止临界值为0.7的阳性样本。与第一个随机分割为训练和测试数据集的数据集不同,第二个数据集的测试数据集采用modQV值大于50进行过滤。表2提供了Li_2020数据集的统计摘要。每个物种都有相同数量的阳性和阴性样本,除了黑腹果蝇。黑腹果蝇的阳性样本和阴性样本之间的数量差异不大。因此,为了进行公平和客观的比较,本工作中的训练和测试数据集仍然保持DeepTorrent的相同。请注意,训练集和测试集之间没有重叠。
图1说明了MSNet-4mC的体系结构的概述。MSNet-4mC采用了一种新的卷积神经网络框架来预测给定特征矩阵的4mC位点。它由一个开放的卷积层、两个相似的块和两个完全连接的层组成。这两个块由卷积层组成,受ResNet(He et al.,2016)的启发,但具有不同的多尺度接受域结构,以感知DNA序列中的长期和短期关系。此外,MSNet- 4mC在交叉熵损失中应用类权值来调整对样本数量不平衡的不同物种的训练。这是通过以下步骤来实现的:在编码序列以获得输入特征时,在训练数据集的每个序列上附加一个物种符号,以表示物种类别。根据相应物种的频率计算不同物种的类权重。当序列被输入网络时,类权值及其物种符号(如图1所示)应用于CE-loss,其中物种符号被用作s的索引
图1。MSNet-4mC的架构概述。该模型通过一系列扩张卷积对多尺度特征进行编码,其中接受域3、5、9的卷积分别对应1、1、2、4。类权重与其物种符号一起应用于ce损失,其中物种符号作为一个索引,以实现正确的权重分配。
与以往将序列表示为训练模型的方法不同,MSNet- 4mC只采用最简单、最常见的编码方案,即单热编码。从理论的角度来看,有效的神经网络可以提取更强大和通用的特征,并从序列中感知内部的数学关系,而不需要手动重复编码序列。然而,一般来说,神经网络只能从数值数据而不是分类数据中学习。因此,本文采用单热编码法对DNA序列进行编码。在这种编码方案中,每个核苷酸都由一个四位的二进制向量进行编码。具体来说,“A”、“C”、“G”和“T”分别由(1、0、0、0)、(0、1、0、0)、(0、0、1、0)和(0、0、0、1)编码。每个有n个核苷酸的DNA序列用一个4×n维的二进制向量表示。此外,每个DNA序列都有一个符号表示物种类别,以引入类别权重。
近年来,卷积神经网络取得了突出的成功,各种方法被提出并应用于现实应用。在此,我们利用CNN技术设计了MSNet-4mC。输入矩阵被输入到第一个卷积层,有16个输出通道和3个内核大小,然后进行批处理归一化和GELU激活。然后,该层的输出将通过类似于ResNet结构的快捷标识连接输入到后续块。这两个块由一个内核的卷积层组成,然后是批处理归一化、GELU激活和退出层,三个并行层具有相同输出通道和核大小但不同接受域的卷积层,然后进行批归一化,三个前输出合并结果的GELU激活和退出层,以及具有一个核的卷积层,然后进行批归一化。此外,在与残差合并之前,对卷积层的输出有一个门控。在这些快捷方式块之间,我们使用GELU激活和退出层。第二个块的输出被馈送到两个完全连接的层。这两层分别包含192个×41个单元和192个单元。最后的输出层配备了加权的通过交叉熵损失来平衡不同物种的候选物种的数量和用softmax分类器来预测4mC位点。
开放的卷积层可以处理从一开始的问题消失/爆炸梯度阻碍收敛(Glorot和Bengio,2010;他等人,2015;Saxe等人,2013)。每个卷积层之后的一个批处理标准化也可用于相同的目的。残差的设计如ResNet所述来解决退化问题,这是通过快捷连接实现的,不引入额外的参数和计算复杂度。这三个并行卷积层是我们的框架的关键组成部分之一。生物序列中的不同位点可能彼此之间存在上下文依赖关系,而这些依赖关系的范围难以确认(Wong et al.,2016)。之前的几项研究表明,DNA序列的侧翼碱基之间也存在很强的相关性(Arenas,2015;伯德,1980;林姆和布兰切特,2020年;马科瓦和哈迪森,2015年)。受这些见解的启发,我们建议挖掘序列的长期和短期依赖关系。具体来说,我们通过使用一系列膨胀的卷积运算来获得与不同接受域的卷积,这可以有效地探索内部关系。
每个物种的样本数量都很少。我们的管道的一个重要步骤是将6个不同物种的训练数据集集成到一个训练数据集中,并训练一个基础模型,以避免过拟合和充分利用跨物种关系。主要问题是,样本多的物种比样本多的物种对模型优化的影响更大,因此,可以触发对基础模型的有偏训练。一种可能的修正方法是为样本较少的物种分配更大的权重,以缓解不平衡训练。因此,我们根据相应物种的频率计算类权重,并将这些权重应用于训练过程中的交叉熵损失(ce损失)。一般来说,有不同的公式可以用来计算类的权重。其基本属性是要满足较小大小的数据集具有更大的权重的要求。加权损失的一个优化目标是更多地关注来自小尺寸物种的数据。然而,不适当的权重可能会导致小尺寸数据集的过度偏差,或者不能产生明显的影响。
总体的CE-loss可以被描述为:
其中N跨越了小批维数,ln是第n个序列的CE-loss。在普通CE-loss的基础上,第n个序列的加权CE-loss可以定义为
其中pi为基本真相,即用一个二进制指标(0或1)表示,qi为由softmax函数计算的概率,˜ωc分别为第c类的归一化权值。请注意,物种符号用于选择˜ωc。˜ωc的计算方法为
其中,ωc是第c个类的非标准化权值。直接应用频率的倒数作为物种的权重来调整损失,可能会引入一个伴随的过度校正问题,因为我们的模型使用了一个基于softmax的分类器来进行概率映射。考虑到本工作中使用的两个数据集的大小和物种间样本数量的差异,特别是对于存在巨大不平衡的第二个数据集,我们采用了一个相对平滑的公式。为此,我们通过频率的倒数的对数来计算类的权重,以确保相对温和的修正。类权重的公式如下:
其中fc为第c种物种的频率,即第c种物种训练数据集的数量除以6个训练数据集的数量之和,C表示本文的类数为6。图1中提到的符号用于表示序列的类。
在本节中,我们将介绍网络和训练的超参数。补充表S2显示了CNN的固定超参数。此外,对于第一个数据集,我们使用SGD优化器和余弦学习率调度,使用256的批处理大小来训练网络。热身期数为20个,训练期之和为300个。基础模型的初始学习率为0.05,微调过程为0.01。一般来说,对于训练深度学习模型,小的数据集会导致过拟合的问题。应用Dropout层是避免过拟合的一种常用方法。由于每个物种的样本数量不同,因此应相应地分配Dropout率。也就是说,一个小规模的数据集(一个物种的)需要以相对较高的Dropout率进行训练。在退出时,一些特征单元根据概率(即Dropout层的分配率)随机地暂时停用,并且在迭代过程中不会进行优化。在网络中有几个退出层。更具体地说,块1中的三个Dropout层和块2中的前两个辍学层分别被分配了相同的Dropout率。最后一个是方块2中的最后一个Dropout层。在训练基础模型时,3种辍学率依次为0.2、0.5和0.8。当对每个特定物种的训练数据集进行微调时,如果训练集的样本数量大于2900,则将3个Dropout率依次设置为0.2、0.5和0.8。否则,三种辍学率依次设置为0.2、0.8和0.8。当从头开始训练特定物种的模型时,Dropout率被分配了与用于微调的值相同的值。
对于第二个数据集,我们分别以512的批大小和初始学习率0.025训练基础模型。在微调阶段的初始学习率为0.01。优化器、学习策略和训练时代与第一个数据集相同。由于与第一个数据集相比,样本的数量大幅增加,因此退出率得到了一定程度的调整。方块1中的Dropout层不再被使用。在训练基础模型时,没有使用方块2中的前两个Dropout层。只有块2中的最后一个退出层是有效的,其值为0.5。在进行微调步骤时,方块2中的前两个退出层和最后一个退出层被分配的退出率分别为0.25和0.5。补充表S3总结了具有相应超参数的训练协议。MSNet-4mC在Intel ®核心(TM)i7-11800H @ 2.30 GHz和NVIDIA GeForce RTX 3060 GPU上进行训练。它的深度学习框架是在使用PyTorch 1.11.0进行训练/测试时实现的。
为了评估MSNet-4mC的预测能力,我们使用了6个常见的性能评价指标,包括灵敏度(SN)、特异性(SP)、精度、准确性(ACC)、Matthew相关系数(MCC)和f1分数。这些评价度量的数学表达式如下:
其中TP为真阳性,TN为真阴性,FP为假阳性,FN分别为假阴性。此外,还绘制了受试者工作特征(ROC)曲线,以直观地评价整体性能。另一个重要的性能度量是曲线下面积(AUC),它被用于定量评估模型的整体性能。
在本节中,我们将详细讨论MSNet- 4mC在Lin_2017数据集(Chen等人,2017)和Li_2020数据集(Liu等人,2021)上的性能评估结果。
为了研究类权重模块在所提出的方法中的贡献,我们对Lin_2017数据集进行了消融研究(Chen等人,2017)。实验在合并的训练数据集上实现,将6个物种组合或不包含类权重模块。每种实验中,我们都进行了10次。所有性能指标的平均结果载于补充表S4。结果表明,在3种大物种上,类权重的分量导致准确率略有下降,约为0.1%,而在其他3种小物种上,准确率明显提高,这与我们的预期一致。损失的微小变化导致地下白蚁和皮克林根白蚁的收益增加超过3%。表3显示了每个类的平均值和方差的结果。与表3中的方差结果相比,具有类权重模块的模型在不同物种上取得了更平衡的性能。这些结果表明,该成分有助于训练前模型提取小尺寸物种的信息的有效性。训练前模型所利用的跨物种特征可以在特定物种模型的后续微调步骤中发挥重要作用。
此外,为了检验具有多尺度感受野的卷积操作的有效性,我们进一步对Lin_2017数据集进行了消融研究。特别是,我们在两个块中去掉了接受域为5和9的两个卷积,以进行性能比较。实验在6个有或没有平行卷积层的物种的合并训练数据集上进行。因此,我们还对每个模型进行了10次实验。补充表S5提供了所有性能指标方面的平均性能结果。可以看出,在大多数情况下,使用多尺度接受域的卷积运算训练的模型都优于仅使用单尺度接受域训练的模型。这清楚地证明了所议模块的有效性。
为了全面评价MSNet-4mC,我们实现了两组实验:第一组实验是在每个物种训练数据集上从头开始训练模型,并在相应的测试数据集上测试其性能。第二步包括两个步骤,首先用合并的训练数据集训练一个基础模型,然后对超参数进行微调,对每个物种训练数据集进行再训练。预训练后的模型可以作为后续训练任务的初始化参数,有助于避免过拟合。对可学习参数进行微调可以提高分类精度。另一方面,首先用合并后的6个物种的数据集来训练一个基础模型,可以用于提取潜在的跨物种特征。因此,我们采用两步训练策略进行了实验
MSNet-4mC和deeptorrect(Liuetal.,2021)从头开始训练的6个物种的性能结果见补充表S6。表格中的最佳结果以粗体突出显示。我们的模型在所有物种中都获得了更高的MCC、ACC、SN和AUC值。它在五种物种的所有六个指标上都取得了最好的表现。结果表明,我们的方法的准确率提高了约6%,AUC提高了约8%。在从头开始训练特定物种的模型时,我们的方法在Lin_2017数据集上明显优于深度激流,这表明我们提出的框架可以有效地从生物序列中提取和利用隐式信息。
此外,我们还进行了两步实验。MSNet-4mC的性能如图2(a)所示,MSNet-4mC在6个物种上的ROC曲线如图2(b).所示结果表明,MSNet-4mC在6个不同物种中的AUC值均高于0.86,ACC值均大于0.84,平均AUC值为0.92,ACC值为0.89。补充表S7提供了MSNet-4mC的所有指标的性能。补充表S8提供了MSNet-4mC和其他三种最先进的物种特定模型方法的详细性能结果。其他方法的结果引用自补充材料(Liu et al.,2021)。可以看出,我们的方法在所有性能指标(即SN、SP、SP、ACC和MCC)方面的最佳性能 (C.秀丽隐杆线虫, A.此外,该方法在准确性和MCC方面均表现最佳。结果表明,该方法的识别能力优于其他方法。从头开始训练和经过微调后训练的物种特异性模型的结果表明,MSNet-4mC的性能优于深度激流,从而表明了MSNet-4mC的有效性。
为了更好地理解MSNet-4mC如何学习有效的表示并有助于提高性能,我们进一步计算了每个物种的4mC和非4mC样本的空间分布。具体来说,我们使用了一个可视化工具t-SNE(Van der Maaten和Hinton,2008)来直观地可视化和比较输入特征和从MSNet-4mC中提取的特征。图3显示了大肠杆菌数据集的4mC和非4mC样本在二维空间中的分布情况。图3(a)、(b)、©分别为输入特征、块2的输出特征和第二个全连通层的输出特征的t-SNE图。从图3(a)中可以看出,正、负样本的原始分布完全混合在一起,其边界难以区分。在图3(b)中,尽管有一些重叠的样本,但在块2之后学习到的特征的分布显示出有两个相对清晰的簇。此外,如图3©所示,从第二个全连接层中提取的特征在特征中正、负样本之间的分布空间更加清晰,彼此分离。另外,其他5个物种的t-SNE图谱见补充图S1-S5。总之,这些结果表明,MSNet-4mC确实能够学习4mC位点识别的有效表征。
为了证明MSNet- 4mC的泛化能力和有效性,我们进一步在Li_2020数据集上进行了实验(Liu et al.,2021)。与对第一个数据集的评估类似,我们实现了两组实验。我们通过使用第二个数据集从头开始训练模型来进行实验。补充表S9提供了从头开始训练的MSNet- 4mC的所有评价指标的性能结果。此外,我们首先结合6个物种的训练数据集,在训练数据集上训练一个基础模型。然后,我们在每个特定物种的训练数据集上对模型进行了再训练,以便在对统一的训练框架进行微调后,获得了特定物种的模型。
结果表明,基础模型在合并后的测试数据集上的预测精度为81.09%。经过微调后的模型的性能见补充图S6。补充图S6(a)显示了评价指标,MSNet-4mC对6个物种的ROC曲线绘制在补充图S6(b).中该方法的平均AUC值为0.95,平均ACC值为0.90。预测中4mC位点的AUC C.秀丽隐杆线虫, D.黑腹蝇, A.拟南芥、大肠杆菌、地下大肠杆菌和皮克林氏杆菌分别为0.976、0.982、0.916、0.996、0.898和0.954。
补充表S10展示了MSNet-4mC和其他最先进的方法在所有评估指标方面的性能比较。图4显示了特定物种模型的性能比较结果。其他方法的结果直接引用自深激流的补充材料(Liu et al.,2021)。可以看出,我们的方法在6个性能指标(包括AUC、MCC、ACC、f1分数、SP和精度)方面,在所有物种中都优于其他方法。除拟南芥外,它在5个物种的所有7个指标中都表现最好。具体来说,我们的方法比SOTA提高了约1.3%的准确率。对于地下白蚁,准确率提高了4.2%,AUC提高了4.4%。此外,特定数据集的一些性能已经饱和,使得增益不那么明显。总体而言,MSNet-4mC的性能优于其他的。
在本研究中,我们提出了MSNet-4mC,一种新的基于深度学习的预测DNA 4mC位点的方法。MSNet-4mC是基于CNN开发的,由一个开放的卷积层、两个基于卷积层的类似块和两个完全连接的层组成。我们工作的主要创新是构建一个内置的尺度感知学习结构基于卷积操作与多尺度接受域感知长期和短期依赖隐含的生物序列和合并物种频率纠正训练不同物种数量不平衡的样本。我们在两个基准数据集上进行了实验。大量的实验一致表明,尽管没有使用复杂的编码表示作为输入,但我们的方法优于其他方法,从而突出了MSNet-4mC提取4mC位点识别的重要和相关特征的有效性。此外,我们还提供了一个优化的视角来利用长的和短的关系,以更好地解决生物序列分类问题。
尽管MSNet-4mC的性能非常突出,但我们推测仍有很大的空间来进一步提高其潜力。将每个物种数据集上训练的模型与合并的6个物种数据集上的基础模型进行比较,从头训练的模型的平均性能优于基础模型。基础模型分类性能的下降可能是由于不同物种之间的噪声/冗余信息,去除这些信息可能有助于进一步提高性能。因此,改善这一方面的有效策略可能有助于显著提高从基因组序列中识别4mC位点的预测性能。此外,还可能存在一些潜在的有用的策略,可以进一步用来改进我们的框架。为了通过利用长期和短期关系来增强框架的感知能力,可以设计新的策略来识别与中心4mC位点的不同距离,而不是本研究中应用的相同距离。此外,还可以将注意机制纳入框架,自适应地关注更重要的信息,有效地提取具有强相关性的特征。最后,迁移学习策略还可以在更大的数据集上获得预先训练过的模型,并对特定物种的模型进行再训练以提高其性能。