聚类Clustering - 可视化样本聚类(Visualizing Sample Clusters)

介绍:
Mahout 提供了可视化样本聚类的事例,根据以下聚类算法:
    * Canopy Clustering
    * Dirichlet
    * Kmeans
    * FuzzyKMeans
    * MeanShift

预先准备
为了可视化聚类,你需要执行mahout-examples模块org.apache.mahout.clustering.display包下的java程序。如果使用eclipse,将mahout-examples转换成eclipse的项目,参见Working with Maven in Eclipse.(这里假定你已经熟悉使用maven管理项目)

可视化聚类
位于org.apache.mahout.clustering.display包下的class可以不带任何参数直接运行,生成样本数据,运行如下涉及的聚类:
1.DisplayClustering
生成1000样本均匀分布在3个分类。这是一个相同的数据集合被使用在下面的聚类程序。在屏幕上显示大量的点,迭代出参数模型以后用来生成大量的点。你也可以编辑generateSamples() 方法来改变在这个程序中使用的样本数据
2.DisplayDirichlet
使用Dirichlet程序聚类
3.DisplayCanopy
使用Canopy聚类
4.DisplayKMeans 
使用k-Means聚类
5.DisplayFuzzyKMeans
使用 Fuzzy k-Means聚类
6.DisplayMeanShift
使用MeanShift聚类

如果你已经使用eclipse导入项目,选择任意一个刚刚提到的class,点击右键,选择"Run As - Java Application"

注意:
.这里的某些程序显示的样本点和当时反复迭代聚类。最终的迭代位于加粗的红色线框内,之前的数次迭代有不同的颜色(橘色,黄色,绿色,蓝色,品红)为了标识出更早的迭代使用轻灰色。这可以相像的描述出,多次迭代过程中怎样的一次次迭代
.改变参数值(k, ALPHA_0, numIterations) 和显示的SIGNIFICANCE,你将得到不同的结果

原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Visualizing+Sample+Clusters

你可能感兴趣的:(apache,eclipse,maven,算法,项目管理)