预训练模型正在席卷多个领域。从大规模无标注数据中提取表征信息,再在小范围标注的下游任务上进行监督学习,正在成为很多领域的事实解决方案。药物与材料设计领域的预训练模型如何构建与应用?让我们从 Uni-Mol@Notebooks 共同出发。
定量构效关系(QSAR)模型
定量构效关系(Quantitative Structure-Activity Relationship,QSAR)是一种研究化合物的化学结构与生物活性之间定量关系的方法,是计算机辅助药物设计(Computer-Aided Drug Design, CADD)中最为重要的工具之一。QSAR旨在建立数学模型,构建分子结构与其生化、物化性质关系,帮助药物科学家对新的药物分子的性质开展合理预测。
构建一个有效的QSAR模型涉及到若干步骤:
构建合理的分子表征(Molecular Representation),将分子结构转化为计算机可读的数值表示;
选择适合分子表征的机器学习模型,并使用已有的分子-性质数据训练模型;
使用训练好的机器学习模型,对未测定性质的分子进行性质预测。
QSAR模型的发展也正是随着分子表征的演进,以及对应机器学习模型的升级而不断变化。
基于三维结构的分子表征预训练模型「Uni-Mol」
在药物研发领域中,QSAR建模面临的一个主要挑战是数据量有限。由于药物活性数据的获取成本高且实验难度大,这导致了标签数据不足的情况。数据量不足会影响模型的预测能力,因为模型可能难以捕捉到足够的信息来描述化合物结构和生物活性之间的关系。面临这种有标签数据不足的情况,在机器学习发展地更为成熟的领域,例如自然语言处理(NLP)和计算机视觉(CV)中,预训练-微调(Pretrain-Finetune)模式已经成为了通用的解决方案。预训练是指在大量无标签数据对模型通过自监督学习进行预先训练,使模型获得一些基本信息和通用能力,然后再在有限的有标签数据上进行监督学习来微调模型,使模型在具体问题上具备特定问题的推理能力。
例如,我想进行猫狗的图片识别,但是我没有很多猫狗的有标签数据。于是我可以先用大量的没有标签的图片预训练模型,先让模型学到点线面轮廓的基本知识,然后再把猫狗图片给模型做有监督训练,这时候,模型可能就能基于轮廓信息,快速学习到什么是猫什么是狗的信息了。
预训练方法可以充分利用大量容易获取的无标签数据的信息,提高模型的泛化能力和预测性能。在QSAR建模中,我们同样可以借鉴预训练的思想来解决数据数量和数据质量问题。
2022 年 5 月,一款开源的 [1] 基于分子三维结构的通用分子表征学习框架 Uni-Mol 正式发表,论文被机器学习顶会 ICLR 2023 接收[2]。与过往的基于一维序列或二维图结构的分子表征框架不同的是,Uni-Mol 直接利用分子三维结构作为模型输入。Uni-Mol 性能优越、模型泛化能力强,在小分子性质预测、蛋白靶点预测、蛋白-配体复合物构象预测、量子化学性质预测、MOF 材料吸附性能预测、OLED 发光材料性能预测等任务上都超越了现有的解决方案。
图|Uni-Mol在下游任务上与原先SOTA的比对
Uni-Mol案例Collections
Uni-Mol 是一个基于 Transformer 开发的深度学习模型,安装环境和部署应用并不容易,这对于想要开展 Uni-Mol 的快速实践,尝试和应用Uni-Mol的使用者来说无疑有着很大的门槛。在这里,我想分享一个Notebook 案例,带大家“手把手”的应用 Uni-Mol 这一强大的工具:「定量构效关系(QSAR)模型从0到1 & Uni-Mol入门实践」:https://nb.bohrium.dp.tech/detail/1032
由于 Notebook 较多,我们整理了Uni-Mol Notebooks Collection 并上传至了 Notebook 案例广场https://nb.bohrium.dp.tech,你可以在案例广场通过搜索「Uni-Mol」来快速找到 Uni-Mol 系列 Notebooks。
欢迎关注我们的公众号NBHub,感兴趣的童鞋可以查看原文:https://mp.weixin.qq.com/s?__biz=Mzg5NTk3Nzk3MQ==&mid=2247484...
Reference
[1] Uni-Mol Github: https://github.com/dptech-corp/Uni-Mol
[2] Zhou, G., Gao, Z., Ding, Q., Zheng, H., Xu, H., Wei, Z., ... & Ke, G. (2023). Uni-mol: A universal 3d molecular representation learning framework. https://openreview.net/forum?id=6K2RM6wVqKu
[3] Wang, J., Liu, J., Wang, H., Ke, G., Zhang, L., Wu, J., ... & Lu, D. (2023). Metal-organic frameworks meet Uni-MOF: a revolutionary gas adsorption detector. https://chemrxiv.org/engage/chemrxiv/article-details/6447d756...
[4] Cheng, Z., Liu, J., Jiang, T., Chen, M., Dai, F., Gao, Z., ... & Ou, Q. (2023). Automatic Screen-out of Ir (III) Complex Emitters by Combined Machine Learning and Computational Analysis.