RDKit | 基于随机森林(RF)的机器学习模型预测hERG阻断剂活性

从分子相似性评估到使用机器学习技术的定量构效关系分析各种建模方法已应用于不同大小和组成的数据集(阻断剂和非阻滞剂的数量)。本研究中使用从公共生物活性数据开发用于预测hERG阻断剂的稳健分类器。随机森林被用来开发使用不同分子描述符,活性阈值和训练集合成的预测模型。与先前提取数据集的研究报告相比,该模型在外部验证中表现出优异的性能。


#导入依赖库
import pandas as pd
import numpy as np
import warnings; warnings.simplefilter('ignore')

from rdkit import Chem, DataStructs
from rdkit.Chem.Draw import IPythonConsole
from rdkit.Chem import PandasTools
from rdkit.Chem import AllChem, Draw

from sklearn.ensemble import RandomForestClassifier
#from sklearn.model_selection import StratifiedKFold
from imblearn.under_sampling import RandomUnderSampler
from sklearn.metrics import recall_score, roc_auc_score
from sklearn.model_selection import KFold, StratifiedKFold,StratifiedShuffleSplit
from sklearn.model_selection import train_test_split
from matplotlib import cm

import math
import pickle
import os

定义函数

 
 

你可能感兴趣的:(RDKit,化学信息学与AI)