生物信息学|药物发现中的机器学习技术(2)

本篇推文引自:Advanced machine-learning techniques in drug discovery

1. 迁移学习

    如果数据量比较少,那么有一些技术可以用来规避这个问题。迁移学习就是这样一种技术,它是将从解决一项任务中获得的知识转移到另一项相关任务的过程。迁移学习是一种越来越流行的ML框架,特别是在医学图像分类中,它包含了一系列技术。迁移学习是通过从已经学习的相关任务中转移知识来改进对新任务的学习。该技术利用从用于预测其目标变量Ya的大数据集A生成的特征,并从数据不足的数据集B依次传递知识以预测不同的目标Yb。在深度学习的背景下,使用较大的数据集训练模型的学习权重,然后将其转换为执行新的类似任务的模型(图2b)。研究发现,该方法的性能优于在较小数据集上训练的传统MLT。此外,由于优化过程已经完成,因此可以为新模型快速部署迁移学习。它假设较大数据集中的预测特征原则上可以应用于不同但相关的任务。此外,如果特征在物理上是相关的,则所学习的特征可以部分地作为目标域的输入特征进行传输。迁移学习框架可以包括有监督和无监督学习技术,后者缺乏目标域的标记输出变量。光谱、图像、音频、文本和数字数据类型已经使用了迁移学习并取得了很好的效果。
生物信息学|药物发现中的机器学习技术(2)_第1张图片
    Turki等人阐述了迁移学习在预测多发性骨髓瘤患者药物敏感性方面的潜力,在多发性骨髓瘤患者中缺乏基因表达数据,获取新数据的成本高昂。利用支持向量机和岭回归,研究人员对大量肺癌和乳腺癌患者的数据进行训练,然后将其应用于多发性骨髓瘤数据集。与基线相比,作者记录的准确率更高。大多数由个体研究者产生的基因数据集对于MLT(机器学习技术)来说太小了。Taroni等人利用大型公共表达纲要进行迁移学习,并证明在使用迁移学习时,可以比使用仅根据其原始特征训练的模型更有效地描述生物过程。将基于kNN回归的迁移学习与潜在回归预测相结合,预测不同抗癌化合物的敏感性。最近,迁移学习被用于识别药物不良反应,这是基于一个模型开发的,该模型用于自动对句子进行文本分类,以检测提到的药物不良反应。利用大型语料库对模型进行训练,并将所获得的知识依次应用于小型语料库。迁移学习的其他应用包括将该技术纳入从头药物设计。

    ML也被应用于材料科学,尽管它的应用不如药物发现和开发那样发达。材料科学对药物配方很感兴趣,实际上是一个相关的领域,有着相似的研究概念和方法。最近,迁移学习被应用于各种材料,包括小分子、聚合物和无机晶体材料。这项研究成功地将迁移学习应用于一个只有少量观察数据的数据集。此外,还揭示了小分子与聚合物、无机化学与有机化学之间的潜在联系。例如,利用迁移特征得到的预测折射率的平均绝对误差和相关值分别为0.063和0.832。相比之下,在没有迁移学习的情况下,误差和相关系数分别为0.833和0.541。

2. 多任务学习

    迁移学习是知识向另一个任务的顺序学习和随后的迁移,而多任务学习是在一个模型中对不同任务的同时学习。研究发现,与单独学习任务(即单任务学习)相比,学习相关任务同时导致预测性能的提高。多任务学习的好处在低容量数据集和/或噪声严重时特别有用。此外,多任务学习被发现优于传统的MLT,尤其是当数据相对稀疏时。以神经网络为例,传统的体系结构一次学习一个任务,为预测任务输出一个单层。相比之下,多任务学习输出多个隐藏层对应的任务数预测。相关的任务在输出层可以是不相关的,但是它们应该在内部表示层是相关的。多任务学习允许任务之间的知识归纳转移。这优化了多损失函数,使模型能够更好地概括多个任务。多任务学习的可预测性提高可归因于不同的因素。在多任务学习中,由于相关任务之间共享的额外信息,数据被放大(图2c)。多个任务能够相互学习,并且能够在相关和不相关的特征之间进行过滤,特别是在数据较少和/或存在显著噪声的情况下。此外,由于多任务协作学习,偏差和过度拟合得到了缓解。在过度拟合的情况下,多任务学习提供了多个任务来帮助彼此创建对共同特征的平滑依赖。多任务学习可用于有监督和无监督学习,并可通过不同的MLT实现,如神经网络、kNN、贝叶斯多元线性回归和SVM。

    在药物发现中,多任务学习在解决多靶点药物的作用方面得到了应用。研究这些候选药物是因为它们具有严重的不良反应,这是作用于多个靶点的负面后果。同样重要的是,最近发现多靶点药物比单靶点药物对一些复杂疾病更有效,如癌症和代谢疾病。Li等人利用了这一原理,他们表明多任务学习可以发现受同一药物影响的多个有用靶点。研究人员使用无监督的ML作为他们的方法和表达数据以及复合结构信息。Yang等人开发了一个多任务框架,称为Macau,用于大规模药物筛选,同时对药物特性和细胞系之间的相互作用得出了可解释的见解。他们的算法使用贝叶斯多任务多关系,利用药物和基因数据探索药物靶点和信号通路激活之间的相互作用。基因表达被用作预测信号通路的分子输入;而对于药物,它们的名义靶点被用作输入。他们工作的基本原理是药物靶点和信号通路之间的相互作用可以提供细胞机制和药物作用模式的新的深入观点。

    除了顺序学习,多任务学习还可以与小数据集的梯度提升决策树相结合。使用这种方法研究了四个数据集,测试大小分别为7413、1792、823和353种化合物。对于最小的一组353个化合物,使用梯度推进和多任务学习时的R2值分别为0.472和0.721。结合这两种技术得出的R2值为0.733,这是对两种单独技术的改进。

    Weng等人还揭示了多任务学习,即同时学习药物-靶点相互作用的分类和回归任务分析。然而,更高的分类任务容易出现过度拟合的偏差。因此,为了解决偏差和方差之间的权衡问题,开发了一个卷积神经网络模型,利用共享特征同时优化回归和分类损失。在另一个应用程序中。Han等人将多任务学习用于药物评价的情绪分析。主要目的是从收集的4200份药物评论中找出人们的情绪、观点和态度。此外,Zubatyuk等人将多任务和多模态学习相结合,以克服训练数据的稀疏性。他们的方法的另一个主要优点是,结果与密度泛函理论(DFT)方法相当,后者是一种相当昂贵的建模方法。

3. 主动学习

    半主动学习是一种利用半主动数据集来解决问题的方法。与被动学习相比,主动学习是一种理想的学习方式,因为它有大量无监督的训练数据,这些数据需要昂贵且资源密集的实验来标记。因此,用户可以进行实验并随后为数据集的子集标记数据,并且使用主动学习来获得剩余未标记数据的预测。使用这种方法,主动学习可以对不确定的样本进行查询。例如,在使用最大似然法预测药物通过血脑屏障的渗透时,一个人可以对10%的分子进行实验,并用这10%的分子训练模型,对另外90%的分子进行预测。当模型不确定时,它会进行查询,然后研究人员可以对这些样本进行实验。因此,与被动学习相比,它有可能需要更少的标记数据,从而加速药物发现过程,同时最小化成本。

    主动学习模型可以使用传统的MLT(如支持向量机)建立,也可以使用深度学习。最近的研究表明,主动学习可用于预测小分子生物活性、配体-靶相互作用和毒性。

4. 生成模型

    如前所述,生成模型是能够生成新样本的MLT。生成模型通过直接从输入数据中学习而区别于分类模型,不一定需要用户编写明确的规则。生成模型可以通过实现数据分布的概率估计来生成新的数据实例,其中新数据位于分布中。给定一个新的数据,就可以生成另一个分布模型。这与判别模型形成对比,判别模型揭示了给定数据实例的标记数据的概率,而不管数据实例是否有效(图3)。最近的研究使用了深度学习生成模型,这种模型除了生成新的化合物外,还可以用于处理小数据集时的数据扩充和降维。如前所述,需要对新生成的分子进行彻底评估,以确保它们不同于市场上已经存在的化合物和/或不同于输入模型的化合物。

5. 贝叶斯神经网络

    BNN是使用贝叶斯推理将多个神经网络模型结合起来的集成模型。与传统的神经网络需要大量的训练数据不同,BNN可以处理小数据集,因为它能够避免过拟合。过拟合是与大多数传统MLT相关的一个问题,BNN通过先验概率分布来避免在训练期间计算多个模型的平均值,从而对网络产生正则化效应。换言之,神经元的权值和偏差不是一个单一的值,而是从一个分布中取样,并定期更新以训练BNN。BNN在药物开发中的应用还没有得到充分的探索。最近的一项研究表明,贝叶斯图网络在预测分子的抑制活性方面优于传统的图网络,使用的是ChEMBL数据集。BNNs也被用于通过从癌症细胞系百科全书研究中收集的数据来识别与抗癌药物敏感性相关的基因。最近,BNN被用于识别药物相似性,其中单个分类器的贝叶斯误差分布可产生93%的准确率,用于区分类药物和非类药物分子。虽然BNNs能够解决神经网络的一些缺点,但是它们需要相对较大的努力来设计神经网络,这可能导致建立由单个编程人员识别的偶然影响。

6. 可解释算法

    使用ML确实是为了促进和加速决策,特别是对于日常任务。因此,可能没有必要了解模型实现的决策过程。然而,了解ML的决策过程将给研究人员带来信心。当模型出现错误时,解释模型可以帮助研究人员排除故障。此外,决策过程中的洞察力可能会导致合理的研究问题。此外,它可以通过提供对决策的洞察来促进对研究的理解。同样,如果技术要商业化,透明度也可能会给监管机构带来信任。最近一个可解释ML的例子被应用于质量结构-活动关系建模,其中发现半监督回归树的性能优于监督回归树。Rodriguez Perez和Bajorath使用不同的预测活动策略,开发了一种方法,阐明了传统技术以及集成和深度学习模型的预测过程。他们的工作重点是消除ML模型的“黑匣子”性质。该方法基于最初为博弈论开发的Shapley值,但作者证明其适用于ML。在他们的方法中,每个特征都被赋予了一个给定预测的重要值,进而提供了对模型贡献最大的特征的概述。此外,他们的方法揭示了模型错误,从而为不准确的预测提供了理论依据,否则就不可能轻易地将其合理化。

7. 混合量子机器学习

    ML与量子计算的混合已经成为预测分析中一种强大的技术。量子计算的主要前景是解决复杂问题的效率,而这些问题对于经典计算机来说代价高昂。在经典模型中,处理单元计算的比特为0或1,而在量子计算中,量子比特处于0和1的叠加状态。量子比特由量子逻辑门处理,与经典逻辑门不同,量子逻辑门是可逆的。这产生了防止信息丢失的计算能力、更快的分析和更低的功耗。量子比特和量子门是量子电路的组成部分,已被证明可以执行比经典电路更快的二次、多项式或指数级任务。混合量子ML的定义尚待确定。迄今为止,它包括使用量子计算机来执行ML算法或将量子信息处理引入ML。前者可视为量子增强的ML,后者可视为量子启发的ML。混合量子ML的示例包括有监督学习、无监督学习和增强学习(RL)。

    H-QML的优点确实可以在药剂学中发挥作用,然而,在撰写本文时,这项技术尚未得到应用。2018年,国际商业机器公司(IBM)发表了一篇关于量子计算在药物发现中的潜力的文章,其中作者将量子ML的潜力纳入了他们的评论范围。最近,googlellc发布了一个针对python的开放访问量子ML框架,这将使研究人员能够使用混合量子ML。因此,混合量子ML在药学领域的应用前景很可能很快就会实现。

8. 推荐系统

    推荐系统在2006年声名鹊起,Netflix宣布了一项旨在为用户创建准确的用户偏好内容的竞赛。推荐系统是一个ML框架,它基于一组用户(例如,客户)与一组项目(例如,产品)之间建立链接的数据。推荐系统在电子商务中被大量使用,例如亚马逊和YouTube,以推动其销售。这些技术的优点是能够处理数据中的稀疏性,在先验信息不可用的情况下进行预测,并通过解释推荐系统如何做出决策来提供透明度。

    推荐系统已被研究用于医疗应用,根据患者的病史提出正确的治疗方案。然而,在药物发现和开发方面的应用还没有建立起来。Sosnina等人开发了一个用于抗病毒药物发现的化合物-靶点相互作用预测的推荐系统。作者使用了一个基于内容的过滤推荐系统,该系统适用于稀疏数据和可解释性。此外,他们的模型使冷启动预测成为可能,在没有实验数据的情况下可以进行预测。鉴于药物发现和开发中的数据都受到这三个问题的影响,预计推荐系统的使用将会增加。

9. 结束语

    在这里,我们已经介绍了MLT的例子,用于规避传统技术的问题。我们详细介绍了如何使用ML来实现流程自动化,而不需要人工参与;如何在缺少大数据时使用迁移学习和多任务学习;如何使用BNNs来避免过度拟合;以及如何使用可解释的算法来阐明模型的决策过程。此外,还讨论了新兴技术及其在药物发现中的潜在作用。混合量子ML有可能进一步提高预测性能,而推荐系统可以解决数据稀疏问题。预计本文所讨论的技术的使用将在不久的将来被采用,并且它们的应用将进一步促进药物发现的研究。最终,模型预测的质量将取决于数据的质量。因此,ML在药物发现中的应用将得益于一个战略性的、统一的数据库。
内容详见:http://bbit.vip/service/main.php?version=1&type=article&id=186

你可能感兴趣的:(机器学习,药物发现)