论文解读《StackTADB:一种基于堆叠的集成学习模型,用于准确预测果蝇中的 topologically associating domains(TADs)的范围》

摘要

染色体由许多不同的染色质结构域组成,可称为拓扑结构域或拓扑关联结构域(TADs)。这些结构域在不同细胞类型之间是稳定的,在物种间高度保守,因此这些染色质结构域被认为是染色体折叠的基本单位,被认为是染色体组织中重要的二级结构。然而,由于高碳数据或实验的高成本和低分辨率,TAD边界的识别仍然是一个巨大的挑战。在本研究中,我们提出了一个新的集成学习框架,称为StackTADB,用于预测TADs的范围。StackTADB集成了四种基本分类器,包括随机森林、逻辑回归、k-邻接和支持向量机。通过对前期研究数据集的一系列检验分析,得出StackTADB在AUC、准确性、MCC、精度、召回率和F1评分6个指标上具有最佳性能,优于现有方法。此外,多个特性的性能的比较表明,基于kmers的特性发挥了重要的作用在预测塔边界的水果f谎言,我们也应用的添加剂种植(形状)框架来解释StackTADB的预测确定为什么基于kmeres的特性是至关重要的。实验结果表明,与BEAF-32基序相匹配的子序列在预测TADs的边界中起着至关重要的作用。
源代码可免费获得在:https://github.com/HaoWuLab-Bioinformatics/StackTADB
StackTADB的网络服务器可以在网上免费获得:
http://hwtad.sdu.edu.cn:8002/StackTADB

引言

三维基因组组织在细胞过程中起着关键作用,如基因调控[1,2]、转录和DNA复制[3]。染色质构象捕获技术的发展使理解整个基因组的染色质结构成为可能。特别是,Hi-C技术的发展揭示了自相互作用的染色质域,称为 topologically associating domains(TADs),其中域内染色质相互作用明显强于域间相互作用[4,5]。TADs作为染色质的结构单位和功能单位,在染色质的结构组织和基因调控中起着至关重要的作用。此外,我们发现大多数已确定的增强子-启动子相互作用位于同一TADs[6]中。这些结构域在不同的细胞类型之间都是稳定的,并且在不同的物种间高度保守,这表明topologically associating domains是哺乳动物基因组[7]的固有特性。TADs通过促进或防止循环交互作用。TAD边界的破坏会影响附近基因的表达,并与某些疾病相关。
虽然以往的方法,如Hi-C技术,可以帮助我们理解三维基因组结构,但HiC实验的高成本和低分辨率仍然对识别TAD[5,13]的边界构成了巨大的挑战。人们提出了各种计算方法来预测TADs的边界。例如,Huang等人[13]开发了一种基于广泛可访问的ChIP-seq数据来预测TAD边界的计算方法,但对TAD边界的预测精度中等(AUC=0.774)。Ramirez等[14]以不同转录因子和DNase-seq信号的motifTRAP评分为特征,对果蝇进行TAD边界预测,模型的预测精度约为73-78%。Gan等人[15]提出了一种计算方法,通过整合表观遗传修饰信号的上下文信息和基因组上的初级DNA序列信息来推断TADs边界,TAD-乳糖将AUC值提高到0.867。此外,他们还证实了DNA序列信息在预测TAD边界中的作用。基于特征的模型和深度学习方法是DNA序列预测分析的两种主要方法。基于特征的模型主要利用K-mers提取DNA序列[15,16]的特征,深度学习模型主要基于卷积神经网络(CNNs)[16–21]、递归神经网络(RNNs)[18,22]和长短网络记忆网络(LSTMs)[18,22]。[22]等人[22]提出了一种独特的深度学习模型,包括三个卷积层和一个长短三元记忆层,准确率达到95.5%。虽然模型的准确率达到了95.5%,但由于模型需要大量的标记数据,因此对模型的训练非常耗时。此外,如果标记的数据量不够,模型的性能将大大降低[23]。因此,有必要提出一种基于DNA序列对不同数据量具有较高准确性和稳健性的TAD边界预测模型。
在本研究中,我们提出了一种新的基于堆叠的集成学习模型来预测TAD边界,称为StackTADB,基于亨德森等人[22]的DNA序列数据。堆叠策略同时训练多个弱分类器(即一级分类器),然后将这些弱分类器的预测结果作为元分类器(即二级分类器)的新特征进行学习。然后,将二级分类器的预测结果作为模型的最终预测结果。
在StackTADB中,一级分类器由三个不同的弱分类器组成,包括K-邻接(KNN)[24]、逻辑回归(LR)[25]和随机森林(RF)[26],并选择支持向量机(SVM)[27]作为二级分类器。然后,我们找到了预测边界的最重要的特征果蝇中的含量。最后,我们还应用 SHapley Additive exPlanations框架来解释StackTADB的预测。

材料和方法

数据集

本研究基于Henderson等人(2019年)创建的数据集。它由一系列单热编码的DNA序列组成,其中每个包含四个项的二进制向量,除了匹配的字母项为1外,其他所有的0 ,代表一个碱基。用[1,0,0,0]、[0,1,0,0]、[0,0,1,0]和[0,0,0,1]分别编码A、T、G和C。该数据集共包含15 057 个正序列和15 070 个负序列,每个序列由1000个碱基组成,我们随机选择80%的数据集作为训练集,其中包含12 077 个阳性序列和12 024 个阴性序列,其余20%的数据集作为独立测试集,其中包含2980个阳性序列和3046个阴性序列。

特征编码方案

近年来,一些研究表明,一些序列编码方案在预测三维基因组结构[16,28]方面非常有效,包括Kmers、核苷酸对谱编码(NPSE)、自然载体(NV)、 mismatch k-tuple( mismatch )、 subsequence profile (SP)、位置特异性评分矩阵(PSSM)和伪二核苷酸组成(PseDNC)。Kmers反映短程序列顺序效应和潜在基序频率; Mismatch k-tuple表示连续元组允许错误;NPSE考虑所有可能的k间隔核苷酸对;PseDNC分析核苷酸序列的频率,全面考虑DNA序列的局部和全局信息; subsequence profile (SP)和不连续的kmers和序列的位置特异性。因此,我们采用这些序列编码方案对DNA序列进行编码,并对提取的特征进行归一化处理。
1、K-mers
2、Mismatch k-tuple
3、Nucleotide pair spectrum encoding
4、Natural vector
5、Pseudo dinucleotide composition
6、Position-specific scoring matrix
7、Subsequence Profile

堆叠集成学习

目前有三种不同的集成学习策略,包括增强、装袋和堆叠[35]。在本研究中,我们采用叠加策略来整合随机森林、Logistic回归和KNN作为基分类器(即一级),并选择SVM作为元分类器(即二级)。
StackTADB在一级学习器中集成了三个基本分类器,其中包括通过调整参数n_neighbors=1,leaf_size=30,P=2,通过调整参数n_estimators=300和随机森林分类器通过调整参数惩罚=‘l2”,C=1.0,max_iter=50 000,并通过调整参数概率=真,伽马=“尺度”,C=1.0,内核=“rbf”集成SVM作为二级学习器。
首先,将输入数据由一级分类器进行训练,然后将一级分类器的输出结果用于二级分类器。为了避免过拟合,我们使用了“mlxtend”软件包[36,37]中提供的叠加交叉验证算法,实现了叠加集成模型。训练集和测试集分别标记为D和T。在堆叠集成学习模型中,采用5倍交叉验证方法将D分成5个大小相同的子集:D={D1、D2、D3、D4、D5}。对于每个Dk(k=1、2、3、4、5),我们轮流使用它作为测试集和其余四个子集作为训练集,然后每个基础分类器来训练和输出Dk(k=1、2、3、4、5)和输出T的预测结果。这样,我们最终得到Dk(k=1、2、3、4、5)和5个预测结果,然后我们将Dk(k=1、2、3、4、5)的5个预测结果合并到D中,并计算T的5个预测结果的平均值在对上述三个基分类器进行上述操作后,我们得到了三个矩阵Dk(k=1,2,3)和三个矩阵Tk(k=1,2,3)。然后将矩阵Dk(k=1,2,3)和标签作为二级分类器的训练集,将矩阵Tk(k=1,2,3)和标签作为二级分类器的测试集(图1)。
其次,我们利用新的训练集来训练二级分类器,并利用训练后的模型来预测新的测试集。最后,将在新的测试集上的预测结果视为最终结果。
论文解读《StackTADB:一种基于堆叠的集成学习模型,用于准确预测果蝇中的 topologically associating domains(TADs)的范围》_第1张图片

结果与讨论

对不同功能部件的性能评价

首先,我们在训练集上使用10倍交叉验证来评估不同个体序列特征识别TADs的能力。最好的结果每个特征的10倍交叉验证结果见表1和补充图S1,不同k值的详细结果见补充表S3-S6。可以看出,基于kmers的模型取得了最好的性能(所有指标值都高于0.98)。同时,错配、NPSE、SP和PseDNC模型产生的AUC值也令人满意,均高于0.95。然而,基于nv的模型和基于PSSM的模型的AUC值并不令人满意,分别比基于kmers的模型低约8%和32%。这些结果表明,Mismatch、NPSE、SP、PseDNC和K-mers对果实TADs边界具有较强的预测能力,而K-mers是预测果实TADs边界信息最丰富的描述符。
论文解读《StackTADB:一种基于堆叠的集成学习模型,用于准确预测果蝇中的 topologically associating domains(TADs)的范围》_第2张图片

其次,鉴于最近的研究表明,在基于序列的特征[16,38,39]中,特征融合策略往往优于单个特征提取方法,我们评估了不同特征集的性能,并将其与K-mers的性能进行了比较。结果见表2和补充图S2。从表2可以看出,与大多数个体序列特征,包括Mismatch、NPSE、NV、PseDNC、SP和PSSM,特征融合策略在6个评价指标上均有显著改善,10个特征融合模型的AUC均高于0.99。然后我们比较10特征融合模型的性能和基于kmers模型的性能,发现基于kmers模型优于所有特征融合模型除了特征集4基于模型在所有评价指标和优于特性集4基于模型五六个评价指标。这些结果表明,K-mers与其他个体序列特征和不同特征集相比,使用特征融合策略更能有效地预测TADs边界。因此,我们使用具有k=6的k-mers作为我们模型的输入特征。
论文解读《StackTADB:一种基于堆叠的集成学习模型,用于准确预测果蝇中的 topologically associating domains(TADs)的范围》_第3张图片

特征表示法的可视化

为了更好地展示StackTADB所选择的特征集和特征表示能力,我们使用表示多维特征的可视化工具t-分布随机邻域嵌入(tSNE)[40]对样本的分布进行了由一个二维向量构成的可视化空间。结果如图2所示。由单热矩阵表示的DNA序列表示图如图2所示。 A.从图2中可以看出。ATADs和非TADs之间有很大的重叠,重叠不仅发生在两个簇的边界附近,也发生在簇内。基于kmers的特征的表示图如图2.B所示。如图所示,两个集群之间的重叠面积比图2要小得多。而重叠只发生在两个簇之间的边界附近。StackTADB学习第一级后的基于kmers的特征表示图如图2.C所示。如图所示,tad和非tad是完全分离的。这些结果表明,基于kmers的特征可以有效地区分TADs和非TADs,我们的模型可以对TADs和非TADs进行分类,具有较高的准确性和效率。论文解读《StackTADB:一种基于堆叠的集成学习模型,用于准确预测果蝇中的 topologically associating domains(TADs)的范围》_第4张图片

对独立测试数据集的性能评估

在评估一个独立的测试数据集[41]时,预测模型在交叉验证中的最优性能是不可转移的。该预测模型在独立测试数据集上的泛化能力可能较差,尽管具有交叉验证测试[38]的性能最优。因此,我们进一步验证StackTADB的性能独立测试集和比较其现有的方法调查StackTADB是否优于其他分类算法,包括KNN,SVM、逻辑回归(LR),决策树(DT),随机梯度下降分类器(SGDC),梯度提升(GB),CNN[22],CNN_Dense[22],CNN_LSTM[22]和CNN编码嵌入层(CNN_embedding)[42]具体来说,传统的基于特征的模型使用了与StackTADB相同的K-mers特性。CNN、CNN_Dense和CNN_LSTM利用单热矩阵编码的DNA序列,CNN_embedding利用包埋层编码的DNA序列。考虑到CNN、CNN_Dense、CNN_LSTM和CNN_embedding等一些算法的结果的随机性,我们对这些模型进行了10次评价,并取平均值作为最终结果。分类算法的参数见补充表S7和在独立测试集上的性能比较。
论文解读《StackTADB:一种基于堆叠的集成学习模型,用于准确预测果蝇中的 topologically associating domains(TADs)的范围》_第5张图片
如图3和补充表S8所示,深度学习模型的10次测试结果见补充表S9-S12。从补充表S8可以看出,SVM、CNN、CNN_LSTM和StackTADB在预测TADs边界方面的性能。此外,StackTADB的AUC、准确性、MCC、精度、召回率和F1得分达到0.99,比那些表现最好的传统的基于特征的模型相比为1.4%、6.5%、6.5%,13.4%、6.5%、6.5%和6.5%,分别为3.6%、10.3%、23.0%、10.2%、10.3%和10.3%。为了进一步评估StackTADB的性能,我们将独立的测试集和训练集与默认参数进行了比较。结果表明,在独立测试集中,有30.3%的序列与训练集中的序列相似度超过70%。在去除这些相似的序列后,我们评估了StackTADB在独立测试集上的性能,结果见补充表S13。可以看出,即使删除了相似的序列,StackTADB的性能也不会受到任何影响。总之,这些结果表明,StackTADB在所有评估指标上都优于其他预测器,,这表明堆叠集成学习方法可以有效地提高性能,因此StackTADB是预测TADs边界的有效工具

对不同数据量的鲁棒性

为了进一步验证算法对数据量的鲁棒性,我们从训练集中随机选择50%和25%作为新的训练集。然后将新的训练集作为传统的基于特征的模型的训练集,根据深度学习模型的7:1的比例将新的训练集划分为训练集和验证集,对11个模型的性能进行评价。当训练集仅为原始数据的50%时,11个模型的性能比较见补充图S3和补充表S14,深度学习模型的10次测试结果见补充表S15-S18。从补充图S3和补充表S14可以看出,StackTADB仍然有最佳性能,实现AUC、准确性、MCC、精度、召回和F1得分0.9525、0.9383、0.88286,0.9438、0.9389和0.9381,分别为3.4%、11.8%、29.9%、12.3%、12.3%、11.9%和11.8%比传统的模型,分别高4.3%,12.1%、31.0%、12.7%、12.2%和12.1%比表现最好的深度学习模型高12.1%。11种模型的性能比较。当训练集仅为原始数据的25%时,详见补充图S4和补充表S19,深度学习模型的10次测试结果见补充表S20-S23。从补充图S4和补充表S19可以看出,StackTADB实现AUC,准确性,MCC、精度、召回和F1得分0.8765、0.8259、0.6647、0.8378、0.8269和0.8247,分别为2.8%、7.1%、22.6%、8.6%、8.6%、7.2%和6.9%高于表现最好的传统特征模型,分别是7.9%、12.0%、39.6%、13.3%、12.2%和12.0%高于表现最好的深度学习模型。
为了直观的比较,我们在补充图S5中展示了使用不同数量的训练集的分类算法的性能。从图中可以看出,每个分类算法都有不同程度的下降程度,但相对来说,StackTADB基本上保持了最优性能,但传统的基于特征的模型(SVM)和性能最好的深度学习模型(CNN)已经显著下降。此外,不同的分类器的性能的差异表明,数据有各种潜在的特征,和StackTADB集成四个分类器,这可以确保即使某些类型的特征不足以正确分类,其他分类器也可以弥补这一缺点。因此,StackTADB比单个模型具有更多的潜在变化,可以获得更有效、更稳健的性能[35]。这些结果表明,当应用于不同的数据量时,StackTADB比现有的方法更稳健,因此在数据量较小时,是预测TADs边界的强大工具。

你可能感兴趣的:(笔记,机器学习,人工智能)