二分类预测

本项目是数据的二分类分析,针对俄亥俄州诊所患者出现与否数据集No-show-Issue-Comma-300k进行样本的分类预测。首先进行特征探究,观察里面的连续变量,布尔值变量以及字符串变量,并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗,探究各变量与状态变量之间的关系。最后分别用决策树,SGD,随机森林以及梯度Boosting对数据集做二分类预测,得到梯度Boosting在ROC_AUC指标下效果最好。

src="https://nbviewer.jupyter.org/github/wzy6642/Machine-Learning-Case/blob/master/noshowappointments/code/NoShowAppointments.ipynb" width="100%" height="1000">

github:https://github.com/wzy6642/Machine-Learning-Case

你可能感兴趣的:(机器学习)