论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法

ToxinPred2: an improved method for predicting toxicity of proteins

期刊:Briefings in Bioinformatics

中科院分区:2区

影像因子:13.994

web网站:https://webs.iiitd.edu.in/raghava/ toxinpred2/

Github:https://github.com/raghavagps/toxinpred2

DOI:https://doi.org/10.1093/bib/bbac174

发布日期:2022年5月20日

目录

摘要

1. 背景

2. 方法与数据集

2.1数据集

2.2 方法

2.2.1 特征提取:Pfeature

2.2.2 BLAST

2.2.3 Motif

3. 结果

4.结论


摘要

       蛋白质/肽已证明是各种疾病有希望的治疗剂。但是,毒性是基于蛋白质/肽的治疗的障碍之一。当前的研究描述了一种基于Web的工具ToxinPred2,用于预测蛋白质的毒性。这是用于预测肽和小蛋白质的毒性的毒素蛋白质的更新。该方法已在瑞士普罗特(Swissprot)最近发布的三个数据集上进行了培训,测试和评估。为了提供公正的评估,我们对80%的数据进行了内部验证,其余20%的数据进行了外部验证。我们已经实施了以下技术来预测蛋白质毒性。 (i)基于本地局部搜索工具的基本相似性,(ii)主题出现以及基于类识别的主题搜索和(iii)预测模型。相似性和基于基序的技术实现了正确预测的高可能性,其灵敏度/覆盖范围差,而基于机器学习技术的模型则以相当高的精度实现了平衡敏感性和特异性。最后,我们开发了一种混合方法,该方法结合了所有三种方法,混合的方法就是两种软件进行蛋白质预测然后再结合RF分类器并在0.99左右的AUC,MCC在验证数据集上为0.91,结合了AAC的特征提取采用RF机器学习的方法ACC达到了0.8637.

1. 背景

      蛋白质和肽是自然存在的分子,在体内发挥各种功能和过程,对于维持细胞机制至关重要[1]。它们的异常活性参与了各种疾病,包括癌症,神经退行性疾病和糖尿病[2]。质/肽的药物发现和发育中存在某些主要问题,例如毒性,免疫原性和稳定性。由于这个原因,评估蛋白质/肽的毒性特性对于将其作为药物靶标是非常必要的。毒素是对身体产生有害作用的潜物质,存在于自然植物中也可以由微生物产生,如果由动物产生致命的毒性比如蝎毒蛇毒,大致的情况一致。

论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法_第1张图片

                                                            图1 相关生物的毒性

科学界采用了数据驱动的计算方法,例如机器学习技术,以预测分子的毒性,最近有很多的文章涉及到蛋白质的毒性:即DeepTox ,Protox-II 和Etoxpred 。基于深度学习的方法如TOXIFY [21]和T oxDL [22]分别于2019年和2020年开发出来。TOXIFY可用于区分动物毒液蛋白和无毒蛋白,而T oxDL可用于评估动物来源的蛋白毒性。

开发用于预测肽,蛋白质和小分子的广泛毒性的计算工具列表

论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法_第2张图片

        图2 相关毒性预测统计表

       本文的作者是将以前的工作的一个升级版本,原来是T oxinPred在1805种毒性肽上进行训练,其中最大长度为35个氨基酸。因此,ToxinPred仅适用于长度不超过50个氨基酸的肽或小肽,但不适用于大蛋白。因此本文这个升级版"ToxinPred2”的更新方法来分类毒性和非毒性蛋白质序列,该方法在大蛋白质/毒素上进行训练和评估。本研究中开发的模型已经在由8233个毒性序列组成的最新数据集上进行训练和评估。

2. 方法与数据集

2.1数据集

       数据集从Uniprot版本2021_03(2021年6月2日发布)[33]中检索到数据集[33]。我们使用关键字“toxin AND reviewed: yes”提取9940毒素。丢弃了所有包含“ BJOUXZ”,小于35个氨基酸和类似于有毒序列的无毒序列的蛋白质序列。最终,我们获得了8233个有毒序列,称为正数据集。在实验过程中选择和收集有毒的蛋白质序列是比较容易的,而获得无毒蛋白质的数据集是具有挑战性的。因此,本文的作者使用关键字“NOT toxin NOT allergen AND reviewed: yes”,并获得了554145蛋白质,从瑞士 - 普罗特[34]提取了负数据集。在这项研究中,我们考虑了经过审查和策划的蛋白质。从这些数据中,我们用长度小于35氨基酸和非标准特征丢弃了序列。因此,我们进行了460 257无毒序列作为负数据集。数据集的创建如图2所示。

论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法_第3张图片

                                                          图3 数据集

2.2 方法

2.2.1 特征提取:Pfeature

一个在线的web服务器:

Pfeature: A web server for computing protein and peptide features

在这项研究中,使用了一个独立的工具Pfeature来生成广泛的特征,如蛋白质序列的组成和基于进化信息的特征。使用Pfeature的基于合成的特征模块,针对所有三个数据集的每个序列计算9163个特征的向量。每个特征的详细信息,以及向量的长度,在S1补充表中列出(并未找到补充文件)。

    对于特征集合这里本文选用了svc-L1-based feature,这种方法基于具有线性核的SVC,用L1正则化进行惩罚[45]。使用这种方法,我们列出了9163个要素池中所有三个数据集的重要要素。其中,主数据集选择了129个特征,备用数据集选择了32个特征,现实数据集选择了52个特征。此外,利用特征选择器工具对主要特征进行排名。它使用一种基于决策树(DT)的算法,用于对经常用于跨所有树拆分数据的特征进行排序.

2.2.2 BLAST

      基本局部比对搜索工具(BLAST版本-2.2.29+)是一个广泛用于注释核苷酸和蛋白质序列的程序[36]。在这项研究中,我们基于蛋白质序列与有毒和无毒序列的相似性,将其用于毒素的鉴定。使用蛋白质-蛋白质BLAST,创建了基于相似性的搜索模块,在该模块中,针对毒素和非毒素的数据库搜索查询序列。

     为了提取给定蛋白质的进化信息,使用位置特异性迭代BLAST计算位置特异性评分矩阵(PSSM)分布图。从大小为20 ×蛋白质序列长度的蛋白质的PSSM图谱中为每个蛋白质序列创建20 × 20组成矩阵(PSSM-400)[44]。为了从PSSM轮廓生成PSSM-400,涉及以下步骤。首先,PSSM值在0-1的范围内被标准化。其次,计算蛋白质序列中每种氨基酸对应的每种氨基酸的出现组合。这意味着每列有20个值,而不是一个。因此,PSSM矩阵将有一个20 × 20维的向量。为了生成这个PSSM-400矩阵,我们使用了Pfeature软件,该软件为每个蛋白质生成一个向量维数为20 × 20的归一化矩阵PSSM-400。

       为此,使用了两种不同的方法来鉴定毒素,即在不同E值截止值下BLAST的最高命中和前五个命中的集合。基于查询序列对数据库的第一次命中,序列被指定为毒素和非毒素。此外,采用投票策略来标注查询蛋白质,该蛋白质被称为前五个命中的集合。在这种情况下,对于查询蛋白质序列,应该有至少或多于五次的命中被认为是命中。如果前五个命中具有最大毒素,则将查询序列指定为毒素。使用类似的方法将查询蛋白质序列指定为非毒素。该方法的性能评估的基础上,各种E值截止。这种方法已经在不同的研究中使用并得到了很好的诠释。

2.2.3 Motif

  通过使用模体浮现和类别识别(MERCI)工具(一种在任何序列组中定位模体的程序)来搜索毒性蛋白质的模体[39]。基序分析提供了与毒性序列中存在的重复模式相关的信息。该软件使用Perl脚本来定位使用默认参数的文件中的主题。

描述ToxinPred2整体架构的流程图。如下

论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法_第4张图片

3. 结果

   对与主数据集,还有其他两个数据集。文中

如果用AAC来提取特征,RF都能有良好的表现。

如果用PSSM图谱来提取特征,XGBoost表现良好。

如果用SVC-L1提取特征的方法,RF的模型对于所有三个数据集表现更好。

对于特征的选择主要是根据归一化和重要性来选择的,为了能够更大程度的区分有毒与无毒。

下表是在主数据集上使用AAC开发的基于机器学习的模型的性能:

论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法_第5张图片

 当与使用AAC开发的基于机器学习的模型结合时,基于motif的方法在主数据集上的性能

论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法_第6张图片

 当与使用AAC的基于机器学习的模型结合时,基于BLAST的方法在主数据集上的性能

论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法_第7张图片

4.结论

      如果氨基酸的序列不超过35,为了补充T oxinPred,我们提出了一种预测蛋白质毒性的新方法,T oxinPred2。本研究建立了三个数据集,即从SwissProt筛选出的主数据集、备选数据集和真实数据集。主数据集包含8233个毒性和非毒性蛋白质,备选数据集包含1924个非冗余毒性和非毒性蛋白质。生成真实数据集是为了创建真实条件,其中负数据是正数据的数倍。因此,在真实数据集中使用了1924种毒性蛋白和19 240种无毒蛋白。

使用Pfeature工具计算蛋白质序列的各种特征。分别使用SVC-L1和特征选择器工具进一步选择和排列相关的特征集。我们的组成分析显示,与无毒蛋白质相比,半胱氨酸、甘氨酸、赖氨酸和色氨酸在有毒蛋白质中占主导地位。值得注意的是,基于组合的特性是首选特性。这表明这些特征可以用来区分有毒和无毒蛋白质。此外,我们还实现了BLAST,这是一个广泛用于注释任何查询蛋白质序列的工具。

   在这项研究中,我们提供了一个全面的平台,用户可以在其中对有毒和无毒蛋白质/肽进行分类。我们预计我们的研究将有益于在蛋白质或肽治疗领域工作的科学家。为了方便科学界并促进所提出的预测方法的广泛使用,我们提供了一个可免费访问的web服务器和一个独立的T oxinPred2软件包。在网络服务器中,我们整合了正确预测毒素和非毒素的最佳性能模型。然而,我们的方法的局限性之一是,它可以对毒素和非毒素进行分类,而不管它们的来源。我们希望研究人员将广泛使用我们的预测方法来设计针对各种疾病的改进和精确的基于蛋白质/肽的治疗方法。

你可能感兴趣的:(生信,机器学习,人工智能)