JCIM|利用Transformer的预训练双向编码器预测天然产物的抗疟疾活性

JCIM|利用Transformer的预训练双向编码器预测天然产物的抗疟疾活性_第1张图片

题目:Predicting Antimalarial Activity in Natural Products Using Pretrained Bidirectional Encoder Representations from Transformers


文献来源:J. Chem. Inf. Model. 2022, 62, 5050−5058


代码:https://github.com/mldlproject/2021-NPBERT-Antimalaria


简介:疟疾是一种高致死率的疾病,每年的患病率很高。在过去十年中,有许多研究发现了有效的抗疟疾化合物来对抗这种疾病。除了化学合成的化学品外,许多天然化合物也已被证明在抗疟疾特性方面是有效的。除了研究天然产品中抗疟疾活性的实验方法外,计算机技术也产生了一定的作用。在本研究中,作者提出了一种基于Transformer双向编码器表示的新型分子编码方案,通过使用我们预先训练的编码模型NPBERT以及四种机器学习算法(k-最近邻(k-NN),支持向量机(SVM),极端梯度增强(XGB)和随机森林(RF)),获得各种预测模型用来识别抗疟疾天然产物的活性。结果表明,SVM模型是表现最好的分类器,其次是XGB,k-NN和RF模型。此外,作者提出该方法不局限于抗疟疾药物的活性识别,也可以用于其他相似领域。

主要内容

  • 工作流程

JCIM|利用Transformer的预训练双向编码器预测天然产物的抗疟疾活性_第2张图片

    
        作者分别从ChEMBL 数据库和ZINC数据库下载25万种以及190万化合物。通过检查原始数据集,删除了重复和无效的分子结构,最终获得了经过处理的200万数据用于名为NPBERT的模型进行预训练。然后预训练模型将只是转移至四个不同的下游模型中,分别是k-NN,SVM,XGB和RF。最后使用这四个模型进行抗疟疾活性的分类任务。在实验中,为了找到每个模型的最佳超参数,作者使用5倍交叉验证对这些分类器的参数值的进行了网格搜索。每个算法将相应训练后的分类器获得最佳性能的参数集定义为最佳超参数。然后使用这些超参数来训练这些模型并且利用单独的测试集进行验证。值得注意的是,抗疟疾数据集来自于实验文献。基于它们的IC50值,将这些化合物分为两组:活性NPs(阳性样品)和非活性NPs(阴性样品)。IC50值<10μm的化合物被认为是活性抗疟化合物,而IC50值≥10μm的化合物被认为是非活性抗疟化合物。

  • 数据

该文章涉及了4种分子表达方式.

  • 扩展连接指纹。扩展连接指纹(ECFP),也称为圆形指纹或摩根指纹,属于一类拓扑指纹。ECFP方案可以根据半径和位数创建各种类型的圆形指纹。使用半径2可以将化合物SMILES转换为相应的1024维和2048维的ECFP二进制向量。

  • RDKit分子描述符。开源化学信息学库RDKIT有196个描述符可以将化合物转化为196维的向量。分子描述符包括106个组成描述符,58个MOE类型描述符,12个连接性描述符,7个拓扑描述符,4个分子性质描述符和1个CPSA描述符。

  • Mol2Vec编码。Mol2Vec是一种基于单词嵌入的类似思想预先训练的分子编码器。    Mol2Vec学习多种化合物的子结构句子以创建分子表示。将化合物的SMILES可转换为其相应的300维Mol2Vec编码的向量。

  • NPBERT编码。NPBERT是作者提出的分子编码方案,它是使用BERT架构的双向编码器表示开发的预训练模型。可以将化合物SMILES转换为相应的512维NPBERTencoded向量。

  • 模型

该文章所用的模型主要涵盖五个,其中NPBERT就是经典的BERT编码预训练模型,用于学习大量分子的知识。而下游模型为k-NN,SVM,XGB和RF,分别用于抗疟疾活性的分类预测任务。

  • 评价指标

为了评估模型性能,评估平衡精度(BA),特异性(SP),灵敏度(SN),Cohen的Kappa(CK)和接收器操作特征曲线(ROC-AUC)下的区域。

JCIM|利用Transformer的预训练双向编码器预测天然产物的抗疟疾活性_第3张图片

  • 采样策略:Synthetic Minority Oversampling     Technique (SMOTE)

     在实验中,由于训练集有不平衡的类,使用合成少数过采样技术(SMOTE)来重新平衡类。作者决定测试两种采样方案:使用SMOTE和不使用SMOTE。表2和表3提供了关于未使用SMOTE的训练模型和使用SMOTE的模型的预测性能的信息.

  • 结果

在具有SMOTE的情况下,预训练策略的优化并不显著。

JCIM|利用Transformer的预训练双向编码器预测天然产物的抗疟疾活性_第4张图片

  • 结论

     作者提出的分子编码方案NPBERT证实了其与其他最先进的分子编码方法相比的优越性能。另一方面,他们用于识别抗疟疾天然产物的预测模型获得高达0.7749的ROC-AUC值。NPBERT编码特征用于模型开发的应用显着提高了构建模型的预测能力。

-------------------------------------------

欢迎点赞收藏转发!

下次见!
 

JCIM|利用Transformer的预训练双向编码器预测天然产物的抗疟疾活性_第5张图片

你可能感兴趣的:(文献分享,人工智能,其他,深度学习,微信公众平台)