期刊:Briefings in Bioinformatics
中科院分区/影像因子:Q2/11.622
发表时间:2022.01.09
服务器:HOME
数据集:DOWNLOAD
转录因子是特异性参与基因表达调控的蛋白质。表观遗传学普遍认为甲基化的核苷酸可以阻止转录因子与DNA片段结合。然而,最近的研究证实,一些转录因子具有与甲基化DNA片段相互作用的能力,从而进一步调节基因表达。尽管生物化学实验可以识别TFs与甲基化DNA序列的结合,但是这些湿法实验方法既耗时又昂贵。机器学习方法为在没有实验材料的情况下快速识别这些TF提供了很好的选择。因此,本研究旨在设计一个可靠的预测因子来检测甲基化DNA结合的转录因子。我们首次提出使用三肽词向量特征来表达蛋白质样本。随后,基于具有长短期记忆的递归神经网络,设计了两步计算模型。第一步预测器用于区分转录因子和非转录因子。一旦蛋白质被预测为转录因子,第二步预测被用来判断转录因子是否能与甲基化的DNA结合。通过独立数据集测试,第一步和第二步的准确率分别为86.63%和73.59%。此外,对训练样本中三肽分布的统计分析表明,序列中某些三肽的位置和数量会影响TFs与甲基化DNA的结合。
数据集:人类TF601个,小鼠TF129个
数据特征::(I)样本长度不小于50个氨基酸残基;
(ii)这些序列不包含诸如“B”、“X”或“Z”的模糊氨基酸;
(iii)同一类别中的序列同一性低于25%。
蛋白质:1945个序列,是FAXTA格式
benchmark dataset:416个TF和416个NTFs
independent dataset:106个TF和106个NTFs
evaluate:69个TFPM和37个TFPNM
流程图:构建一个识别TF的模型并判断TF是否能与甲基化DNA结合的流程图。这些过程包括(A)收集足够的蛋白质数据,(B)将每个蛋白质序列分成三肽形式,并通过Skip-gram模型训练三肽词向量,(C)表示不同的三肽特征,(D)区分TFs和NTFs,(E)区分TFPM和TFPNM。
构建一个识别TF的模型并判断TF是否能与甲基化DNA结合的流程图。这些过程包括(A)收集足够的蛋白质数据,(B)将每个蛋白质序列分成三肽形式,并通过Skip-gram模型训练三肽词向量,(C)表示不同的三肽特征,(D)区分TFs和NTFs,(E)区分TFPM和TFPNM。
用于机器学习的传统数字特征通常将描述蛋白质n端至C端20个氨基酸排列信息的序列信息转换成向量,例如DC、CTD、氨基酸组成(AAC) 、伪氨基酸组成等。但是,这些特征丢失了蛋白质最原始、最重要的序列信息。当蛋白质序列中的不同氨基酸交换时,它们不会发生显著变化,这表明这些特征对序列信息不敏感。因此,有必要开发新的特征来反映序列的不同氨基酸之间的相似性或差异。
为了克服上述特征的缺点,我们基于自然语言处理中的词向量特征开发了三肽词向量特征。如图1所示,特征提取过程包含三个步骤:(I)收集足够的蛋白质序列数据;(ii)将每个蛋白质序列转换成三肽形式,并通过Skip-gram模型训练三肽单词向量,该模型基于输入单词预测可能出现在其上下文中的单词;(iii)通过特定维度的一维阵列表示不同的三肽特征。第一步,统计不同三肽出现的可能性和位置,以衡量三肽在不同背景下的差异。第二步主要反映序列中氨基酸的上下文,通过Skip-gram模型进行学习和训练。第三步,使用训练好的词向量模型来描述特征相似度,因为氨基酸不同的蛋白质片段可能具有相同的功能。因此,向量特征对序列之间的氨基酸变化非常敏感,这有助于提高使用计算模型对不同功能蛋白质进行分类的能力。
在我们的工作中,通过将窗口从序列的N-末端向C-末端移动一步,将完整的蛋白质序列分成几个三肽亚序列。比如一个蛋白质序列是‘MAGPWTFTL’,它的三肽形式是< MAG,AGP,GPW,PWT,WTF,TFT,FTL >。相邻的三肽含有两个相同的残基,增强了特征之间的上下文关系。其他多肽形式不适合我们的小规模数据集。例如,有16 000种四肽。其中一些有很大概率不会出现在训练样本中,会造成不利于模型建立的噪声和冗余信息。使用Skip-gram模型,通过特定位置的三肽预测上游和下游三肽。因此,通过训练1945个蛋白质序列,构建了7997个三肽字载体。此外,Skip-gram模型是通过Python语言的“genism”库构建的。两步的三肽词向量输出分别是100维和200维特征,这是考虑到维数的增加可以弥补TFPM和TFPNM中信息的不足。
蛋白质的功能与其三维结构密切相关,三维结构受序列中残基位置的影响。氨基酸残基的交换和差异会影响蛋白质的功能。传统的机器学习算法,包括SVM、随机森林、XGBoost等,与输入特征的上下文无关。最近,模拟动物大脑中神经元传递信号方式的神经网络已经广泛用于分类问题。早先提出的RNN主要用于处理自然语言。LSTM深度学习算法弥补了RNN在梯度消失方面的不足。而且,它可以通过序列特征的输入顺序来处理序列上下文。在LSTM,输入样本的每个三肽对应于“一个状态”。随着下一个三肽的输入,模型状态的更新通过三个门来控制。遗忘门用于过滤当前三肽和先前三肽的信息。使用增强门来更新当前状态的保留信息。输出门用于输出当前模型的状态。由于LSTM可以记录三肽在整个序列中不同位置的贡献,该算法被用于预测TFs并确定它们是否可以结合甲基化的DNA。在我们的工作中,一个具有LSTM单元的双向层RNN,每个LSTM单元包含128个隐节点,用于建立TFs预测模型。TFs是否与甲基化DNA结合的预测模型是由两个单向层RNN开发的,其LSTM单元包含256个隐藏节点。提议模型的实现依赖于pytorch版本1.1.0。
为了确定TFs是否可以与甲基化的DNA结合,实验的第一步是开发一个预测模型来区分TFs和NTFs。我们已经通过独立集测试验证了所提出模型的性能,并将结果列于表1中。表中还记录了与已发表模型的比较。总的来说,我们的模型比刘的模型表现得更好。Acc和MCC分别增长3.61%和0.0658,达到86.36%和0.7275。
该模型的优越性能证明了三肽词向量和LSTM能够捕获序列的一级结构信息。为了阐明TFs和n TFs在一级结构上的区别,我们计算了416个TFs和416个NTFs之间不同三肽的数量,用词云显示出来。显然,TF中最常见的三肽是AAA、GGG、SSS和PPP,其数目大于500,如图2a所示,这意味着每个TF可能包含这些三肽。特别是在同一TF中,三肽AAA可能比其他三肽出现的多。但在NTFs中,只有三肽EEE的数量大于样本数量,其他三肽包括PPP、LLL、SSS等的数量都大于样本数量。是低的并且差别很小,如图2b所示。上述统计分析表明特定的三肽可能影响TFs的功能。
研究了出现在不同位置的三肽。由于不均匀的序列长度,每个序列被分成三个片段:起始、中间和末端,其中计算前30个位点的三肽数量。如图3所示,TFs和n TFs之间差异最大的前10个三肽以白色字体染色,列于表2中。在NTFs中,三肽白字的数量和类型(AAA、LLL、EEE、GGA、AAG等。)更多的是在序列的开始而不是中间(购买力平价,LLL等。)和结尾(EEE、SSS等。)的序列。在TFs中,以AAA为主的三肽分布在序列的起始和中间位置。一般来说,三肽AAA的比例最大,可能对TFs的功能有更重要的影响。
一旦一个蛋白质通过第一个模型被鉴定为TF,就有必要探究TF是否能与甲基化的DNA结合。我们根据方法中的描述训练了一个模型来识别这样的TF。从表3中可以看出,我们的模型的性能指标高于以前发表的模型,特别是ACC、MCC和AUC分别从68.87%、0.3471和0.735提高到73.59%、0.4831和0.832。如Liu等人所述,与甲基化或非甲基化DNA相互作用的不同类型的TF在功能和一级结构上是相似的。准确捕捉TF的序列信息以反映它们的差异是非常必要的。我们的模型不仅考虑了残留物的组成,还考虑了位置信息。因此,我们的模型的预测精度有了很大的提高。从图4的词云可以发现,最多的三肽出现在TFPM和TFPNM中,包括AAA、GGG、SSS、PPP,这进一步说明了TFPM和TFPNM样本的相似性,但序列中相同三肽的数量和位置的差异可能是决定TF是否与甲基化DNA结合的关键。
根据TFPM和TFPNM不同位置的三肽类型,我们在图5中列出了排列在序列起始、中间和末端每30个位置的五个三肽。在所有的TFPM和TFPNM中,用白色标记表示的三肽的数量显著不同,记录在表4中。在TFPM序列的开始,GGG是分布最广的三肽,其次是AAA。相反,AAA是最常见的,GGG在TFPNM中排名第二。三肽PGP出现在TFPM而不是TFPNM中,位于序列开始的第20位,表明特定位置的三肽可能影响TF是否与甲基化DNA结合。在序列的中间位置,AAA在TFPM和TFPNM中最常见。在序列的末端,TFPM和TFPNM中具有白色标记的三肽的数量显著减少,并且TFPNM中的AAA小于TFPNM。总的来说,三肽AAA的数量和位置可能决定TF是否与甲基化的DNA结合,其他特殊的三肽也会影响它。此外,丙氨酸的疏水性验证了沈的结论,即疏水性影响TFs与甲基化位点的结合。
四、有何想法
一种新的相互作用机制被证实,TFs可以与甲基化的DNA结合。由于这种关系的功能和原理仍然很神秘,因此判断TFs能否与甲基化DNA结合是遗传表观遗传学的一个里程碑。因此,我们引入了一种基于三肽字载体的方法来检测TFs,并进一步区分TFs是否能与甲基化的DNA结合。实验结果证实了特定三肽的位置和数量可能限制TFs与甲基化DNA的结合。三肽的实验模型和词向量特征将以网站的形式在https://bioinfor.nefu.edu.cn/ TFPM/展示。预测一次TFs对NTFs和TFPM对TFPNM的20个样本需要10秒和20秒。我们相信三肽的单词载体将对其他功能蛋白的预测做出积极的贡献。