银行客户违约信息分析(数据挖掘)

一、摘要
“data.xsl”文件中的数据是某银行收集到的客户违约信息,现设待分析的因变量是违约,其他变量是可能影响客户是否违约的因素。本文对数据进行了数据探索,对数据的基本情况、相关性进行了一定的分析;数据清洗使用了填充、取均值、删除异常值的方法;利用绘制热力图选择了合适的特征向量;最后,采用决策树、若决策数、AdaBoost分类模型进行比较分析并比较几种分类方法的准确率。AdaBoots分类模型的准确率比较高。

二、实验内容
1、数据探索模块:
(1)将xls文件转换为csv文件
银行客户违约信息分析(数据挖掘)_第1张图片

(2)了解数据表的基本情况,包括行数、列数、每列的数据类型、数据完整度;
代码:
银行客户违约信息分析(数据挖掘)_第2张图片

运行结果:

你可能感兴趣的:(数据挖掘,数据挖掘,机器学习,决策树)