Mahout 中 kmeans的参数

1)    Path Input 所有待聚类的数据点的路劲,参数不可缺

2)    Path clusters :存储每个簇中心的路劲,参数不可缺

3)    Path output :聚类结果存储的路劲,参数不可缺,如果指定了簇的个数,则该路劲下文件可为空

4)    DistanceMeasure measure :数据点间的距离计算方法,参数可缺,默认是 SquaredEuclidean 算方法

     提供参数值:   ChebyshevDistanceMeasure 切比雪夫距离

                    CosineDistanceMeasure 余弦距离

                    EuclideanDistanceMeasure 欧氏距离

                    MahalanobisDistanceMeasure 马氏距离

                    ManhattanDistanceMeasure 曼哈顿距离

                   MinkowskiDistanceMeasure 闵可夫斯基距离

                   SquaredEuclideanDistanceMeasure 欧氏距离 ( 不采取平方根 )

                   TanimotoDistanceMeasure  Tanimoto 系数距离

                   还有一些基于权重的距离计算方法:

                   WeightedDistanceMeasure

                    WeightedEuclideanDistanceMeasure WeightedManhattanDistanceMeasure

5)  Double convergenceDelta: 收敛系数 新的簇中心与上次的簇中心的的距离不能超过 convergenceDelta ,如果超过,则继续迭代,否则停止迭代。参数可缺,默认值是 0.5

6)  int maxIterations 最大迭代次数,如果迭代次数小于 maxIterations ,继续迭代,否则停止跌打,与 5) 中的 convergenceDelta 满足任何一个停止迭代的条件,则停止迭代。参数不可缺。

7)  boolean runClustering :如果是 true 则在计算簇中心后,计算每个数据点属于哪个簇,否则计算簇中心后结束,参数可缺,默认为 true

8)  clusteringOption :采用单机或者 Map/Reduce 的方法计算。参数可缺,默认是 mapreduce

9)  int numClustersOption :簇的个数,参数可缺。

你可能感兴趣的:(Mahout kmeans)