MOE定量构效关系(QSAR)

定量构效关系(QSAR)指利用数理统计方法建立特定性质与分子理化性质参数或结构参数之间关系的方法。目前多款商业软件都已集成了该功能,之所以以MOE为例,是因为它的QSAR构建页面是我见过最简洁、最直观的,而且功能分区比较集中,不需要开开关关多个窗口。

1. 打开任意一个sdf文件

这里选择打开MOE内部示例数据(该数据集记录了每个分子血脑屏障通透性数值logBB)最终目标是训练一个可以预测分子血脑屏障通透性的QSAR模型。


MOE定量构效关系(QSAR)_第1张图片

MOE定量构效关系(QSAR)_第2张图片

MOE定量构效关系(QSAR)_第3张图片

MOE定量构效关系(QSAR)_第4张图片

MOE定量构效关系(QSAR)_第5张图片

MOE定量构效关系(QSAR)_第6张图片

如果你想要给分子添加新的属性,比如IC50值等,可以选中某列表头右键,选择new,定义新的一列列名,并手动给每个分子添加各自数值。

MOE定量构效关系(QSAR)_第7张图片

2.清洗结构,生成三维坐标

MOE定量构效关系(QSAR)_第8张图片

MOE定量构效关系(QSAR)_第9张图片

MOE定量构效关系(QSAR)_第10张图片

3.计算分子描述符

计算分子描述符或分子指纹,类似于deepchem中的Feature:

MOE定量构效关系(QSAR)_第11张图片

这里我随便选了几个Descriptor(分子描述符),如下图:

MOE定量构效关系(QSAR)_第12张图片

下图红框内的就是新计算生成的分子描述符

MOE定量构效关系(QSAR)_第13张图片

4.构建QSAR模型

本例我们构建的QSAR模型是用来预测logBB的,这中预测值是数值上连续的,所以选择模型时选第一个QSAR即可(如下图);如果预测值是分类型的(如有无毒性,有无活性等),则需要选择第二个分类模型—Classification。

MOE定量构效关系(QSAR)_第14张图片

下图如果勾选selected entries only,则只会选用选中的数据进行构建QSAR模型。想象一下,如果你后续对模型验证时发现有影响模型准确性的"坏"数据,则可以在重新构建模型时不选中这些数据,同时勾选selected entries only前的方框,这样就可以排除这些数据的干扰了。

MOE定量构效关系(QSAR)_第15张图片

MOE定量构效关系(QSAR)_第16张图片

进行这一步之前,最好点一下Validate,看一下模型构建的品质。尤其是需要找出影响模型准确度的数据(XZ-SCORE大于1.5的最好去除)

MOE定量构效关系(QSAR)_第17张图片

5.用构建好的QSAR模型预测其他分子的logBB值

这里为了简化操作,就拿上面模型构建的数据进行预测吧

MOE定量构效关系(QSAR)_第18张图片

MOE定量构效关系(QSAR)_第19张图片

MOE定量构效关系(QSAR)_第20张图片

6.绘图查看预测值与实际值间的相关性

MOE定量构效关系(QSAR)_第21张图片

MOE定量构效关系(QSAR)_第22张图片

上图可以看出预测的结果并没有太好,R2仅有0.58。这多半是因为中间跳过了validate一步,正常情况下模型构建好后需要validate,剔除XZ-SCORE大于1.5的数据,再重新进行模型构建。

MOE定量构效关系(QSAR)_第23张图片

你可能感兴趣的:(CADD,学习)