IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据|附代码数据

全文链接:http://tecdat.cn/?p=30752

最近我们被客户要求撰写关于决策树的研究报告,包括一些图形和统计输出。

如何通过方法有效的分析海量数据,并从其中找到有利的资讯已经成为一种趋势

而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践,介绍决策树在空气污染预测领域的实践案例。

分类预测模型的构建流程,具体步骤如下:

(1)数据处理 :审核数据,过滤掉含有缺失值的数据记录。

(2)划分数据集,训练集70%,测试集30% 。

(3)构建模型时的参数设置 。

(4)构建模型:构建C5.0模型。

(5)结果评估,用测试集数据运行得到的运行结果,对模型采用命中率评估两个模型的预测效果。

加入表节点

图片

读取数据

图片

添加“抽样”节点

随机抽取70%的样本作为训练集

图片

“C5.0”节点

图片

生成的决策树模型,并对测试数据进行预测

得到测试数据的分类结果的准确度

图片

预测分类结果

图片

有88.1%的测试样本的预测值和实际值相符。

并且得到如下的决策树模型:

图片


点击标题查阅往期内容

图片

[](http://mp.weixin.qq.com/s?__b...)数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

图片

左右滑动查看更多

图片

01

图片

02

图片

03

图片

04

图片

其中变量的重要性如下图所示:

图片

从结果可以看到,首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。

C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益(根节点的熵减去该拆分的熵)来度量拆分纯度的。第一次拆分某一字段,划分出相对应的样本子集。然后继续拆分这些样本子集,一般情况下使用的是另一字段进行拆分,一直循环这样一个过程,直到满足拆分终止条件。最后,若生成的树出现过度拟合的状况,则要修剪那些缺乏价值的样本子集。

图片

图片

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据》。

点击标题查阅往期内容

数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Python用Apriori算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化
【视频】关联规则模型、Apriori算法及R语言挖掘商店交易数据与交互可视化|数据分享
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
用SPSS Modeler的Web复杂网络对所有腧穴进行关联规则分析
PYTHON在线零售数据关联规则挖掘APRIORI算法数据可视化
R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化
R语言关联挖掘实例(购物篮分析)
python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析
基于R的FP树fp growth 关联数据挖掘技术在煤矿隐患管理
python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析
通过Python中的Apriori算法进行关联规则挖掘
Python中的Apriori关联算法-市场购物篮分析
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
在R语言中轻松创建关联网络
python主题建模可视化LDA和T-SNE交互式可视化
R语言时间序列数据指数平滑法分析交互式动态可视化
用R语言制作交互式图表和地图
如何用r语言制作交互可视化报告图表

你可能感兴趣的:(数据挖掘深度学习人工智能算法)