数据挖掘回顾十:聚类算法之 K均值 (K-Means) 算法


由此,跨入无监督学习。即从此没有训练集和测试集之说,无监督学习只有一个数据集。


并且,在分类或回归算法中(有监督学习),数据集中的一条数据包含两个信息:各特征属性值、类别标签或目标值。而聚类算法的数据集中每一条数据只包含一个信息:各特征属性值。


聚类,顾名思义,就是聚类,呵呵。即把数据集中的数据凝聚成一个或多个小类,这些各个小类自己内部的数据之间有相似的特征属性。


K均值算法,顾名思义,包括两个方面:一在 K,即要把数据集分成 K 个小类。二在均值,即每次迭代选择每一个小类标识的时候,总是求这个小类中所有数据的平均值作为当前小类的标识ci,其中i=1,...,k。


K均值算法如下:

首先,从数据集中确定K个数据分别作为K个小类的初始标识。

然后,进行一次次的迭代,直到满足一定的条件,迭代结束。每次迭代做如下两件事情(先做1后做2):

1,对数据集中的每一条数据,通过计算其与当前迭代周期的K个小类的标识ci之间的距离(比如可以是欧式距离),找出K个距离中最小的那个,然后这条数据就划到距离最小对应的小类。

2,重新计算K各小类的均值,得到一个个新的小类的标识ci。


注:*,第一个标红处,即在数据集中确定K个数据作为K个小类的初始标识,如何选定K的大小,然后以及如何选定这K个数据,这有很多种方法。比如随机选择K个数据。比如K的大小可以多试几次。以验证K取哪种值时,聚类效果最好。

      **,第二个标红处,什么条件,迭代会结束?条件就是:当前迭代产生的K个小类和上轮迭代产生的K个小类中的数据一模一样,所有数据的类别都没有发生变化。



至此为止,对于K均值,相信大家都非常明白了。但在实际应用中,可能要经过反复试验才能确定相关的最佳参数,比如K的大小,比如如何选择最初始的K个小类的标识。




你可能感兴趣的:(数据挖掘&机器学习)