1) Path Input : 所有待聚类的数据点的路劲,参数不可缺
2) Path clusters :存储每个簇中心的路劲,参数不可缺
3) Path output :聚类结果存储的路劲,参数不可缺,如果指定了簇的个数,则该路劲下文件可为空
4) DistanceMeasure measure :数据点间的距离计算方法,参数可缺,默认是 SquaredEuclidean 算方法
提供参数值: ChebyshevDistanceMeasure 切比雪夫距离
CosineDistanceMeasure 余弦距离
EuclideanDistanceMeasure 欧氏距离
MahalanobisDistanceMeasure 马氏距离
ManhattanDistanceMeasure 曼哈顿距离
MinkowskiDistanceMeasure 闵可夫斯基距离
SquaredEuclideanDistanceMeasure 欧氏距离 ( 不采取平方根 )
TanimotoDistanceMeasure Tanimoto 系数距离
还有一些基于权重的距离计算方法:
WeightedDistanceMeasure
WeightedEuclideanDistanceMeasure 、 WeightedManhattanDistanceMeasure
5) Double convergenceDelta: 收敛系数 新的簇中心与上次的簇中心的的距离不能超过 convergenceDelta ,如果超过,则继续迭代,否则停止迭代。参数可缺,默认值是 0.5
6) int maxIterations : 最大迭代次数,如果迭代次数小于 maxIterations ,继续迭代,否则停止跌打,与 5) 中的 convergenceDelta 满足任何一个停止迭代的条件,则停止迭代。参数不可缺。
7) boolean runClustering :如果是 true 则在计算簇中心后,计算每个数据点属于哪个簇,否则计算簇中心后结束,参数可缺,默认为 true
8) clusteringOption :采用单机或者 Map/Reduce 的方法计算。参数可缺,默认是 mapreduce 。
9) int numClustersOption :簇的个数,参数可缺。