2021年华为杯中国研究生数学建模竞赛D题-抗乳腺癌候选药物的优化建模-思路-程序

[抗乳腺癌候选药物的优化建模]

程序链接:https://mianbaoduo.com/o/bread/YZ6Wm5dr

目前,在药物研发中,为了节约时间和成本,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的某个靶标(此处为ERα),收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。
建模目标:根据提供的ERα拮抗剂信息(1974个化合物样本,每个样本都有729个分子描述符变量,1个生物活性数据,5个ADMET性质数据),构建化合物生物活性的定量预测模型和ADMET性质的分类预测模型,从而为同时优化ERα拮抗剂的生物活性和ADMET性质提供预测服务。

问题1.根据文件“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据,针对1974个化合物的729个分子描述符进行变量选择,根据变量对生物活性影响的重要性进行排序,并给出前20个对生物活性最具有显著影响的分子描述符(即变量),并请详细说明分子描述符筛选过程及其合理性。
!

**针对问题1:需要根据729个分子描述进行变量选择,即选择更好的特征(既然是选择,而不是组合,那么想主成分分析之类的由旧变量获得新变量的方法可能就不再适合了),并且根据变量对生物活性影响的重要性进行排序,可以看作是一个回归问题,建立好回归模型后,对中药的变量特征进排序。最后要找到最重要的20个变量,然后解释其合理性。合理性这个东西最好量化的说明好合坏,即用数值体现,比如回归系数的取值较大等,或者甚至只使用这挑选出来的20个变量建立回归模型就能得到多少的准确性。只有数值才更有说服力。
回归模型中可以得到变量重要性的方法最常用的是随机森林算法。进行变量筛选的同时进行变量重要性体现的方法可以用Lass回归、弹性网络回归、逐步回归等。
重要特征筛选可以先通过相关的算法进行筛选,然后再建立回归模型;也可以建立回归模型的过程中进行变量的筛选。** 

问题2.请结合问题1,选择不超过20个分子描述符变量,构建化合物对ERα生物活性的定量预测模型,请叙述建模过程。然后使用构建的预测模型,对文件“ERα_activity.xlsx”的test表中的50个化合物进行IC50值和对应的pIC50值预测,并将结果分别填入“ERα_activity.xlsx”的test表中的IC50_nM列及对应的pIC50列。
针对该问题:要利用问题1选择出的20个字变量建立回归模型。回归模型方法有很多,具体采用哪种就看自己选择了。
方法1:通过将给的训练集,随机的训练集和验证集,比如4:1之类的比例,然后建立多种模型,挑出在验证集上预测精度较高的算法。当然也可以将集中算法的预测结果进行融合。
方法2:因为给出的数据样本并不是很多,也可以利用K折交叉验证的算法建立回归模型,找到效果较好的算法。
该题的目标很直观,出题方最终的评价该题的指标会是你给出在测试集上的预测值,和他们实验的真实值之间进行误差比较。

2021年华为杯中国研究生数学建模竞赛D题-抗乳腺癌候选药物的优化建模-思路-程序_第1张图片

问题3.请利用文件“Molecular_Descriptor.xlsx”提供的729个分子描述符,针对文件“ADMET.xlsx”中提供的1974个化合物的ADMET数据,分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型,并简要叙述建模过程。然后使用所构建的5个分类预测模型,对文件“ADMET.xlsx”的test表中的50个化合物进行相应的预测,并将结果填入“ADMET.xlsx”的test表中对应的Caco-2、CYP3A4、hERG、HOB、MN列。
针对该问题:要求是分别构建每个变量的分类预测模型,那针对每个变量的模型就是一个二分类模型了(我看问题之前还以为要建立一个多目标签的分类模型呢)。分别建立二分类模型更简单一些,这种情况的分类算法有很多,不再赘述了,建议仍然是尝试建立多种分类模型,然后找到较好的算法。最终的评价标准,会是对测试集数据的预测准确率。当然二分类模型建立的中途,可能还会有很多问题,比如:数据的类不平衡等问题,要注意对数据集的描述分析。

问题4.寻找并阐述化合物的哪些分子描述符,以及这些分子描述符在什么取值或者处于什么取值范围时,能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET性质(给定的五个ADMET性质中,至少三个性质较好)。
2021年华为杯中国研究生数学建模竞赛D题-抗乳腺癌候选药物的优化建模-思路-程序_第2张图片

**针对该问题:该问题可以看作是前面建模结果的延伸,找到对两个目标都好的一些特征的取值范围,重点可以考虑根据前面找到的20个自变量,但是并不是说其他的变量就不分析了。其实针对这两个目标进行一些合适的数据可视化,应该就能看出,哪些取值范围对两个目标的影响更好一些了。但是只用数据可视化说看出来的,肯能还不太够,可视化作为辅助分析还是比较好的。还是要考虑用前面建立的模型去逆向推理。针对:“给定的五个ADMET性质中,至少三个性质较好”的说明,可以看作是在取值范围0——5之间的一个多分类,或者回归模型。多分类模型应该更好一点。**

注意:这里如果得分相加获得0——5的区间是,需要注意“hERG:‘1’代表该化合物具有心脏毒性,‘0’代表该化合物不具有心脏毒性”。这点一遍情况下大家应该都能注意到。

你可能感兴趣的:(华为,人工智能,机器学习,数学建模)