2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模

2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模

  • 赛题
  • 1. 问题一解题:特征选择
      • 1.1. 赛题分析
      • 1.2. 解题:特征选择方法对比
      • 1.3. 模型评估
  • 2. 问题二解题:预测模型
      • 2.1 数据分析
      • 2.2 解题
  • 3. 问题三解题:二分类模型
  • 3.1. 数据分析
  • 3.2. 解题
  • 4. 问题四解题:优化问题
      • 4.1. 解题

赛题

  • 问题1:根据“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据,需要对1974 个化合物的729 个分子描述符进行变量选择,根据变量对生物活性影响的重要性进行排序,并给出前20 个对生物活性最具有显著影响的分子描述符(即变量),并说明分子描述符筛选过程及其合理性。

  • 问题2:通过问题1 选取的最具有显著影响的变量,选择不超过20 个分子描述符变量,构建化合物对ERα生物活性的定量预测模型。然后使用构建的预测模型,对文件“ERα_activity.xlsx”的test 表中的50 个化合物进行IC50 值和对应的pIC50 值预测,并将预测结果分别填入“ERα_activity.xlsx”的test 表中的IC50_nM 列及对应的pIC50 列。

  • 问题3:构建5 种化合物的分类预测模型涉及包括729 个分子描述符和1974 个化合物的ADMET 数据。然后使用所构建的5 个分类预测模型,对文件“ADMET.xlsx”的test表中的50 个化合物进行相应的预测,并将结果填入“ADMET.xlsx”的test 表中相应的5种化合物所在列中。

  • 问题4:寻找并阐述化合物的哪些分子描述符,以及求解这些分子描述符在什么取值或者处于什么取值范围时,能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET 性质(给定的五个ADMET 性质中,至少三个性质较好)。

出题人的心思

  • 前三问,无非是建立预测pIC50和ADMET分类模型,但是机器学习的应用从来都是作为医学、自动驾驶等领域的辅助,主流还是传感器和实验本身,所以是用来预测辅助医生来降低医生的错判率

  • 第四问,选择对抑制pIC50具有正性影响的分子描述符,并且求能够满足ADMET三个属性的分子描述符取值范围,实际上,就是想通过这个结果去人工合成抗乳腺癌的化合物

1. 问题一解题:特征选择

1.1. 赛题分析

  • 问题1:很多人一眼想到的就是:降维,主成分分析,因此想到的办法有:
    • 线性映射方法:
      • 主成分分析(PCA)
      • 因子分析
    • 流形学习
      • 核化线性(KPCA)降维
      • t-SNE
      • 多维标度法(MDS)
      • 等距离映射(Isomap)
      • 局部线性嵌入(LLE)

解题思路:但是降维过后的维度不在原始维度之中的情况,就具有不可解释性
这题的本质是对729个特征(分子化合物)做特征选择,选择重要性靠前的20个特征(分子化合物)

1.2. 解题:特征选择方法对比

如果从特征选择的角度出发,首先就已经区别于其他对手了,下面是解题方法:

  • GBDT特征选择模型比较
  • 互信息特征处理方法模型比较
  • XGB特征处理模型比较
  • 基于随机森林的特征选择:

2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第1张图片

  • 基于相关性系数
    2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第2张图片

1.3. 模型评估

将所有特征提取方法的结果,将其放到聚类的空间,观察其样本分布的多样性,多样性越好,特征选择的结果越好
2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第3张图片

2. 问题二解题:预测模型

2.1 数据分析

2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第4张图片
数据是不满足正太分布的,所以线性模型的效果会差,之后也用逻辑回归尝试过,RS指标只有0.5

2.2 解题

  • 多层感知机,BP神经网络
  • SVM:支持向量机
  • RF:随机森林
  • XGBoost
    RS指标能达到0.77左右

3. 问题三解题:二分类模型

3.1. 数据分析

2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第5张图片
CYP3A4、HOB、MN数据存在正负样本不均衡

3.2. 解题

  • XGBoost
  • Focal Loss替换二元交叉熵损失
    在这里插入图片描述
  • LightGBM
  • L1正则化
    在这里插入图片描述

4. 问题四解题:优化问题

4.1. 解题

分为两部:

  • 1.求解对抑制pIC50具有正性影响的分子描述符
    2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第6张图片
    2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第7张图片

  • 2.求解至少满足ADMET三个性质情况下的分子描述符的取值范围

    • 方法1:狼群优化算法

    • 方法2:包络提取法:类似于信号处理的信号包络,但是局限于数据本身的多样性

2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模_第8张图片

你可能感兴趣的:(数学建模,数学建模,华为杯数学建模,研究生数学建模,抗乳腺癌候选药物,分子描述符)