RapidMiner介绍与实践(一)决策树

前言

也不算回馈社会(???)只是这段时间里面,在网上查阅了不少相关的资料,因为很多大神们手敲的智慧,对一些算法和RapidMiner软件有了进一步的理解和相关时间,所以想要将这段时间,自己一点点小小的理解以及利用RapidMiner进行算法分析的过程分享到网上。也是希望能够对像我这种想要学习这个软件的小伙伴们一点我的理解。

目录

  1. 什么是RapidMiner
  2. 决策树基本原理及步骤
  3. RapidMiner实现决策树预测分析

什么是RapidMiner

首先,它是一个数据挖掘的工具。其次,它无需编程,避免大量的编程工作。最后,你能利用RapidMiner(下面简称RP)连接其中算子形成数据处理流程,实现对数据文件的挖掘,最重要的是,能够帮助对整个挖掘流程的理解

但是缺点也是有的,据说是在处理更大量数据方面可能不是很合适。但是在我软件里面看到有与hadoop连接,但是由于本身自己对软件的了解有限,所以对于这个缺点,自己也不是很确定,所以之后有机会再补充吧。

RapidMiner介绍与实践(一)决策树_第1张图片

基本流程:
  1. 新建Repository(本身存在local repository)
  2. 选择算子后放入工作区
  3. 设置算子参数
  4. 算子间连接
  5. 执行流程得到结果
算子类型:

流程控制类:实现循环、条件等(Utility……)
数据输入输出类(Data Access)
数据转换类:数据类型变换、数据抽取、清洗等(Blending)
建模类:分类、回归、关联分析、聚类分析等建模(Modeling)
评估类:对模型进行检验,如多重交叉检验、自助检验等(Validation, Scoring)
RapidMiner介绍与实践(一)决策树_第2张图片
ps: 上图中版本为6.0 版本,而上文括号中为最新版本(貌似是7.4?)中的最新算子分类。

数据挖掘过程

RapidMiner介绍与实践(一)决策树_第3张图片
结合这个过程去理解RM算子摆放。

决策树基本原理及步骤

决策树(Decision Tree)

工作原理:基于数据的同质性划分数据。而这里同质性可以理解为纯度。但是要根据这个标准来划分数据必须具备一定的要求。

1.当种类群间数量相等时,不纯度需为最大值。
2.只存在一种种类群时,不纯度统计值需为零

RapidMiner介绍与实践(一)决策树_第4张图片
关于纯度的理解:在outlook这里列中,overcast(阴天)对应的play(是否出去玩)全都是Yes,这个时候我们可以说overcast这个属性子类的纯度是100%。

综上,熵值、基尼系数符合纯度要求。因此可以利用这两种标准来衡量,也就因此出现了决策树中各种相关算法。由于自己也是各种理解有限,如有相关理解请指出。

Step
  1. 计算某属性中各类别的熵值
  2. 计算此属性熵值的加权平均和
  3. 计算信息增益
  4. 为其他属性重复以上步骤
  5. 选择信息增益最大为根节点

以上可以结合相关习题加以理解。

RapidMiner实现决策树预测分析

数据准备:RM中repository中 Sample>data>golf/golf-testset
RapidMiner介绍与实践(一)决策树_第5张图片
在窗口operator搜索下图中相关算子,找到算子后按照下图放置。点击启动。得到运算结果。
RapidMiner介绍与实践(一)决策树_第6张图片
RapidMiner介绍与实践(一)决策树_第7张图片
Result窗口结果:
RapidMiner介绍与实践(一)决策树_第8张图片
预测结果~但是看起来这个预测真的结果还是挺不给力的……
RapidMiner介绍与实践(一)决策树_第9张图片
下篇预告:RapidMiner介绍与实践(二)贝叶斯分类器

以上仅是简要记录下,自己实验过程,如上,有问题,可以留言~看到后,会及时回复哒。

你可能感兴趣的:(数据挖掘)