RapidMiner介绍与实践(三)K-Means

前言

前两篇介绍了利用RapidMiner利用决策树算法、贝叶斯分类器对golf数据进行简单的预测分析,当然由于数据集的有限,模型预测结果就是各种惨不忍睹,所以……今天更多是关注于K-Means算法在rapidminer中如何实践。

K-Means算法基本理解

K-Means又称K-平均数,计算标准为距离平均数。计算过程如下。
RapidMiner介绍与实践(三)K-Means_第1张图片
之前,非常机缘巧合看到有关K-Means算法可视化的程序。感觉对算法的理解有所帮助。可以浏览:K-means可视化 byGeorge
可能不是很方便浏览可以直接看代码,即https://github.com/silverme/KMeans/blob/master/index.html

利用RapidMiner实践K-Means

数据:Sample>data>iris

直接双击iris数据可以浏览到:数据内容及相关可视化分析
RapidMiner介绍与实践(三)K-Means_第2张图片
依据标记好数据,可以将数据分为三类,在可视化过程中,其实可以看到有两类是处于一种比较接近的状态,如果没有颜色区分,就像是一类一样,所以可以留意之后的分类结果。
RapidMiner介绍与实践(三)K-Means_第3张图片
检索如下图所示的算子进行流程构建。
rename算子主要是因为rapidminer中提供的关于iris数据集属性都是a_1这样的形式,不知道实际代表的结果,所以在网上了解数据集收集内容后,直接对将属性进行改名。
select attribute算子功能主要是选择所要的属性内容。
**注意:**算子相连过程中上个算子输出与下个算子的输入是要对应的,不然就会存在流程不通过的结果,下图注意”Clustering“与”cluster distance performance “之间相连。
RapidMiner介绍与实践(三)K-Means_第4张图片
rename算子参数设置:
RapidMiner介绍与实践(三)K-Means_第5张图片
RapidMiner介绍与实践(三)K-Means_第6张图片
select attribute算子参数设置:
RapidMiner介绍与实践(三)K-Means_第7张图片
cluster distance performance算子参数设置:
Davies Bouldin标准用于判断分类效果,数值越小效果越好。用于判断k值到底取多少合适。
RapidMiner介绍与实践(三)K-Means_第8张图片

结果输出:

当K设置为3时,Davies Bouldin衡量结果为-0.422
RapidMiner介绍与实践(三)K-Means_第9张图片
RapidMiner介绍与实践(三)K-Means_第10张图片
当k为5时,Davies Bouldin衡量结果为-0.211,结果比k为三时大,效果没有那么好。
RapidMiner介绍与实践(三)K-Means_第11张图片

但当k为2时,Davies Bouldin衡量结果为-0.879,更小结果更好。
这也是算法本身性质(根据距离分类)导致的分类结果。
RapidMiner介绍与实践(三)K-Means_第12张图片

暂时关于RapidMiner的实践介绍就先到这里,网上也有一些关于apriori关联分析的rapidminer实践,所以就不写类似的重复内容了。其实,也是因为自己对这个软件理解还有很多不足,还是需要继续取学习,希望有一日能够继续更新这个系列的文章吧。就酱~

RapidMiner介绍与实践(一)决策树
RapidMiner介绍与实践(二)贝叶斯分类器
RapidMiner介绍与实践(三)K-Means

你可能感兴趣的:(数据挖掘,rapidminer,数据挖掘,K-means)