聚类中心部分

1. 最简单的确定初始类簇中心点的方法是随机选择K个点作为初始的类簇中心点,但是该方法在有些情况下的效果较差。

2. 首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出K个初始类簇中心点。

3. 选用层次聚类或者Canopy算法进行初始聚类,然后利用这些类簇的中心点作为KMeans算法初始类簇中心点.

K均值聚类算法(K-Means)
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类,使得同一个类内的数据对象的相似性尽可能大,同时使不在同一个类中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同类的数据尽量分离。
K均值聚类算法是由Mac Que提出的。K均值聚类算法是一种经典的划分聚类算法,K均值聚类算法是一种迭代的聚类算法,在迭代的过程中不断移动聚类中心,直到聚类准则函数收敛为止。
K均值聚类篡法的基本思想
K均值聚类算法属于一种动态聚类算法,也称逐步聚类法,在聚类算法迭代之前,算法首先随机的从数据集中依次选取k个数据对象作为k个初始聚类中也,根据类中对象的均值,即聚类中也,依次将其他的数据对象划分到与其最近的聚类中也所在的类中,数据对象划分完毕,然后计算每个聚类的中心,更新聚类中心作为新的聚类中心点,迭代上述聚类过程。直到聚类中也不再发生变化,即聚类准则画数值收敛为止或者聚类准则函数连续值相差小于给定阀值。通常采用的目标函数即聚类准则函数为误差平方和准则函数。在每次迭代中都要考察样本的分类是否正确是K均值聚类算法的一个的特点。
在数据挖掘中,K 均值聚类算法广泛的应用于科学研究、数据统计分析等研究领域,是经典聚类算法之一。它是一种基于距离的硬聚类算法,基于距离的聚类算法主要是指采用距离函数作为相似性度量的评价指标,距离函数主要有如下几种:
1. 欧氏距离

2.明氏距离明氏距离是一种带有明氏距离的计算公式

显而易见,当式中的t=2时,就得到欧式距离,所以欧氏距离可以看成明氏距离的一个特例。欧氏距离是聚类算法中用来度量数据对象间相异性最常用的方法之一。类似的相似度度量方法还有曼哈顿距离、切氏距离、马氏距离、兰氏距离等,只不过这些相似度度量方法不常用而已,
一般我们都采用欧氏距离作为相似性度量函数。也就是说,如果两个数据对象的距离比较近。说明二者比较相似,距离比较远,说明二者不相似。所谓的硬聚类算法是指数据集中的数据对象要么属于这个簇,要么属于其它的簇,并不存在模糊的概念。K均值聚类算法具有简单快速、适于处理大数据集等优点,但它缺点同样存在,比如易陷入局部最小解、需要事先指定聚类数目等等。目前,国内外许多改进的聚类算法都是在K均值聚类算法思想基础上做出的深入的研究。本节重点介绍了K均值聚类算法原理,在基于K均值聚类算法随机选取初始聚类中易陷入局部最小解的情况下,提出了一种改进的K均值聚类初始聚类中心点选取的算法,实验证明该聚类算法能够有效的避免聚类结果陷入局部最优解,很好的提高聚类的准确度。

你可能感兴趣的:(聚类,算法)