浅谈人工智能在药物设计和发现中的应用进展

机器学习(Machine Learning,ML)属于人工智能的子领域,它是研究机器能够熟练执行智能任务的过程和实用性,而无需为这些任务明确编程。最近,人工智能系统已经接近人类在一些任务上的表现,如游戏和图像识别,但这些是在非常狭窄和集中的领域。尽管如此,人工智能的各种形式如今已成功地应用于大范围的领域:从机器人、语音翻译和图像分析,再到药物分子设计的应用。

在药物发现中,最好的人工智能不一定是能够自主设计一种新药的单一人工智能,而是一种或多种不同的人工智能,能够在整个药物发现过程中更好地理解和设计新的输入,从靶点选择、命中识别、引导优化到临床前研究,最后到临床试验。

人工智能在药物发现中能起着关键作用,特别是人工神经网络,如深度神经网络或循环网络,驱动着这一领域的发展。在性质或活性预测方面的许多应用,如物理化学和ADMET性质,定量结构-性质关系(QSPR)或定量结构-活性关系(QSAR)等技术支撑着这方面的应用。人工智能推动生物活性分子朝着期望的特性发展,结合合成计划和易合成的可行性,计算机自动发现药物的可能性越来越大。

人工智能包括机器学习等技术是为学习和预测新特性建立的,尤其是人工神经网络,如深度神经网络(deep neural netwroks, DNNs)或递归神经网络(recurrent neural networks, RNNs),推动了人工智能的发展。

自20世纪60年代以来,药物化学就开始使用人工智能应用于新化合物的设计,其中有标记训练数据集的训练模型被广泛应用于分子设计中。定量构效关系(QSAR)方法广泛用于预测化学结构的性质,如logp、溶解度和生物活性。相反,不依赖于标签的无监督机器学习也在医学和化学中使用,例如层次聚类、算法和主成分分析等用于分析大分子库。

药物化学研究中,当深度学习体系结构在性能预测方面显示出好结果时,新型人工智能技术受到了广泛关注。在Merck Kaggle和NIH Tox21挑战中,与基础机器学习方法相比,深度神经网络显示出更好的预测性。

在药物发现中,临床候选化合物分子必须满足一组不同的标准。除了对生物靶的有效效力外,该化合物应对不针对的靶标具有相当的选择性,并且具有良好的物理化学和ADMET特性(吸收、分布、代谢、排泄和毒性特性)。因此,化合物优化是一个多维度的挑战。在多维优化过程中,采用了大量的硅预测方法,特别是一些机器学习技术已经被成功应用,例如支持向量机器(support vector machines, SVM)、随机森林(Random Forests, RF)或贝叶斯学习。

在没有参考化合物时,从头设计开发新的活性分子需要约25年。由于人工智能领域的发展,从头设计化合物最近出现有一些新的进展。一种有趣的方法是变分自动编码器,它由两个神经网络、编码器网络和解码器网络组成。编码器网络将由SMILES表示定义的化学结构转换为一个实值连续向量作为潜在空间。解码器能将来自该潜在空间的矢量转换为化学结构。

这一特性被用于寻找潜在空间的最优解决方案,并通过解码网络将这些向量反向转化为真实分子结构。对于大多数反编译,一个分子占主导地位,但存在细微的结构修改的可能性较小。使用潜在空间代表来训练基于QED药物相似性评分和合成可及性评分SAS的模型。可以得到一条具有改进目标性质的分子路径。在另一份文章中,将这种变分自动编码器的性能与对抗性自动编码器进行了比较。对抗式自动编码器由产生新型化学结构的生成模型组成。

人工智能近年来备受关注,并已成功进入药物发现领域。许多机器学习方法,如QSAR方法、SVMs或随机森林法,都是药物发现过程中建立起来的。基于神经网络的新算法,如深度神经网络,为属性预测提供了进一步的改进,这在许多比较深学习与经典机器学习的基准研究中已经显现出来。这些新算法在许多不同应用中的适用性已经得到证明,包括物理化学性质、生物活性和毒性等。

多任务学习的一些好处也得到了证明,其中相关属性的预测受益于联合学习。未来的改进可以通过学习一种适应当前化学的代表性问题来实现。首先,我们已经努力从这些问题中识别相关的化学特征,也指出了这些算法的一个主要挑战,即它们的“黑匣子”特征。从深层神经网络中提取某些化合物是非常困难的,如果人工智能越来越多地引导合成这些资源,这就变得很相关了。

人工智能在药物发现中的应用得益于开源实现,它提供了对软件库的访问,允许实现复杂的神经网络。因此,像TensorFlow或Keras这样的开放源码库经常被用于在药物发现中实现不同的神经网络结构。此外,Deepchem库提供了一个围绕TensorFlow的包装器,它简化了化学结构的处理。

近年来,人工智能系统的应用范围大大扩大,包括从头设计或逆合成分析,预示我们将在有大型数据集可用的领域看到越来越多的应用。随着在这些不同领域的进展,我们可以预料到越来越多的计算机将用于自动药物发现。尤其是机器人技术的巨大进步将加速这一进展。然而,人工智能还远未达到完美。具有良好理论背景的其他技术仍然很重要。特别是,由于它们受益于计算能力的提高,因此可以用更精确的方法模拟更大的系统。

作者:曾文亮

分子描述符和分子指纹

分子描述符/指纹计算软件

结构预处理和数据预处理

算法简单介绍和分类

KNIME软件介绍

基于sklearn的特征选择

模型的评价与解释

ADMET介绍

KNIME软件构建ADMET模型

ADMET计算软件和实操

噪声过滤和相似性搜索

机器学习模型构建和预测

分子对接

ADMET评估

你可能感兴趣的:(浅谈人工智能在药物设计和发现中的应用进展)