《数据挖掘基础》实验:Weka平台实现聚类算法

实验目的

进一步理解聚类算法(K-平均、PAM、层次聚类、密度聚类),利用weka实现数据集的聚类处理,学会调整模型参数,以图或树的形式给出挖掘结果,并解释规则的含义。

实验要求

(1)随机选取数据集(UCI或data文件夹),需要做预处理的,单独说明处理过程。完成以下内容:(用四种方法:K-means、K-中心法、层次、密度)

  • 文件导入与编辑
  • 参数设置说明
  • 结果截图
  • 结果分析与对比

(2)以AQI.xls中1-550数据为训练数据集,用三种方法聚类,对比结果;以551-599为测试数据集,做模型评估,检验模型的正确性。

  • 文件生成与编辑
  • 参数设置说明
  • 结果截图
  • 结果分析

weather数据集

1. 文件导入与编辑

单击Open file打开data文件夹,选择weather.nominal.arff文件,导入到weka中,如图1所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第1张图片

图1 weather数据集

2. 参数设置说明

2.1 K-means算法

参数设置如下图2,其中numClusters表示簇的个数,设置为6。

《数据挖掘基础》实验:Weka平台实现聚类算法_第2张图片

图2 K-means参数设置

2.2 PAM算法

参数设置如下图3, numClusters设置为6。

《数据挖掘基础》实验:Weka平台实现聚类算法_第3张图片

图3 PAM参数设置

2.3 层次聚类算法

参数设置如下图4, 簇的个数设置为6。

《数据挖掘基础》实验:Weka平台实现聚类算法_第4张图片

图4 层次聚类参数设置

2.4 密度聚类算法

参数设置如下图5。

《数据挖掘基础》实验:Weka平台实现聚类算法_第5张图片

图5 密度聚类参数设置

3. 结果截图

K-means算法结果如图6所示,PAM算法结果如图7所示,层次聚类算法结果如图8所示,密度聚类算法结果如图9所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第6张图片

图6 K-means算法结果

《数据挖掘基础》实验:Weka平台实现聚类算法_第7张图片

图7 PAM算法结果

《数据挖掘基础》实验:Weka平台实现聚类算法_第8张图片

图8 层次聚类算法结果

《数据挖掘基础》实验:Weka平台实现聚类算法_第9张图片

图9 密度聚类算法结果

4. 结果分析

K-means算法聚类起点为:
Cluster 0: rainy, mild, normal, FALSE, yes
Cluster 1: overcast, cool, normal, TRUE, yes
Cluster 2: rainy, mild, high, TRUE, no
Cluster 3: overcast, hot, high, FALSE, yes
Cluster 4: overcast, hot, normal, FLASE, yes
Cluster 5: sunny, hot, high, TRUE, no
最终集群质心为:
《数据挖掘基础》实验:Weka平台实现聚类算法_第10张图片

PAM集群质心为:
《数据挖掘基础》实验:Weka平台实现聚类算法_第11张图片

层次聚类算法结果与密度聚类算法结果未直观的读出。
比较K-means算法与PAM算法结果,可以发现初始Cluster 3完全一致,
K-means中的Cluster 0与PAM中Cluster 2、Cluster 4只有一个属性不一致,还有类似的有一个属性不一致的簇。从分析来看,两种聚类方法结果有一定的相似性。

AQI数据集

1. 文件生成与编辑

将表格中序号为1-550号的数据写入到一个csv文件中,如图10所示,作为测试数据集,序号为551-599号的数据写入另一个csv文件中,如图11所示,作为测试数据集。

《数据挖掘基础》实验:Weka平台实现聚类算法_第12张图片

图10 训练数据集

《数据挖掘基础》实验:Weka平台实现聚类算法_第13张图片

图11 测试数据集

通过weka的Open file功能导入刚刚生成的训练数据集,用上述聚类算法做聚类,在Test options中选择Use training set按钮如图12所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第14张图片

图12 训练数据集选择

接着选择Supplied test set按钮,并单击Set按钮,弹出如图13所示弹窗,单击Open files选择生成的测试数据集,用测试数据集,做模型评估,检验模型的正确性。

《数据挖掘基础》实验:Weka平台实现聚类算法_第15张图片

图13 测试数据集导入

2. 参数设置说明

参数值的设置及说明同上。

3. 结果截图

3.1 K-means算法

训练数据聚类结果如图14所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第16张图片

图14 K-means算法训练集结果

测试数据聚类结果如图15所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第17张图片

图15 K-means算法测试集结果

3.2 PAM算法

训练数据聚类结果如图16所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第18张图片

图16 PAM算法训练集结果

测试数据聚类结果如图17所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第19张图片

图17 PAM算法测试集结果

3.3 层次聚类算法

训练数据聚类结果如图18所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第20张图片

图18 层次聚类算法训练集结果

测试数据聚类结果如图19所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第21张图片

图19 层次聚类算法测试集结果

3.4 密度聚类算法

训练数据聚类结果如图20所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第22张图片

图20 密度聚类算法训练集结果

测试数据聚类结果如图21所示。

《数据挖掘基础》实验:Weka平台实现聚类算法_第23张图片

图21 密度聚类算法测试集结果

4. 结果分析

K-means算法测试集数据属于训练集生成的簇0、1、2、5;
PAM算法测试集数据属于训练集生成的簇0、2、3、4;
层次聚类算法测试集数据属于训练集生成的簇0、1、2、4;
密度聚类算法测试集数据属于簇0的占82%,簇1的占18%。

你可能感兴趣的:(数据挖掘原理,聚类,数据挖掘,算法,机器学习,Weka)