聚类分类

     聚类:所谓物以类聚,人以群分,聚类分析就是依照某种评价准则根据数据中对象的相似程度分成多个类;同一个聚类中的对象相关性高,彼此相似,不同聚类之间

的对象相关性低,彼此相异。

聚类分析算法有划分方法、层次聚类、基于密度的聚类和基于网格的聚类等几种主要的聚类策略;

1.基于层次的聚类方法

     于层次的聚类方法在构造聚类时主要分为自顶向下(凝聚)和自底向上(分裂)的方式:

        (1)凝聚型层次聚类:

聚类之初,每个对象本身都代表一类,随着聚类过程的进行,这些聚类将逐渐地合并直到得到一个期望的聚类结构为止;
        (2)分裂型层次聚类:

所有对象被初始化为一类,然后聚类将被逐渐分割成多个子聚类,这个过程直到聚类数量达到一个期望值为止;

    层次聚类的结果是一个系统树图,表示随着分组改变分组的对象和相似性水平的一个嵌套的过程"数据的聚类结果就是在一个期望的相似性水平基础上对系统树图的切割。

聚类的合并或者分裂是根据相似性度量,并优化这个标准。层次聚类力一法根据相似性度量方式的不同计算方法也不尽相同"主要有:

(1)Singlc一link度量:也叫做最近邻度量,两个聚类之间的距离被定义为聚类内的任意成员与另一个聚类的任意成员之问的最短距离;
(2)ComPlete一link度量:也被称为最远距离度量,两个聚类成员间的最远距离表示为这两个聚类的距离;
(3)Average一link度量:或称最小方差度量,这种度量两个聚类之间的距离方法是计算不属于同一聚类的任意两点的距离平均值;

不同的测量聚类间距离的方式各有优缺点,比如Single一link聚类方式容易产生“链式效应”的问题,而Averagc一link方式的聚类结果很容易拉长聚类的形状"在实际聚类过程中,具体用哪种度量方式要根据数据特点灵活恰当地运用,层次聚类的代表算法有Birch算法和chameleon算法等"

2.基于划分的聚类方法

       划分方式的聚类在初始时给定一种分组情况,而后逐渐修正数据对象在聚类中的分布情况。这种方法要求使用者在最初预先定义一组聚类,为了找到最优的聚类结果,穷举式列举出所有可能得划分情况是不实际的,所以需要采用一种贪心的启发式策略来迭代地优化聚类结果,即每次迭代都更正k个聚类中数据点的分配情况。

    划分方法大多使用最小误差方式进行计算,适用于边缘清晰或者聚类紧凑的情况。其基本原理是最大限度地减小聚类中每个实例的代表值对于聚类距离影响的误差标准。应用最广泛的标准为最小二乘法,k一均值(k-means )聚类就是这类一个典型的最小误差算法,初始随机k个聚类中心,每次迭代中,所有的数据样本都被重新分配到与其聚类中心点距离最近的聚类中,然后重新计算聚类中心。聚类中心的计算方式为所有属于
该聚类数据点的平均值。迭代过程中如果划分偏差不达到了设定闽值或者超过了预定义的迭代次数,算法终止。同类的算法还有PAM(partition around medoids)算法,K-medoids算法 和Clarans算法等。

3.其它聚类方法

    基于密度的聚类方法假设每种聚类中的点都属于一种相同的概率分布,整个数据由多种分布组合而成。这种聚类方法能够找出任意形状的聚类,不局限于凸状分布。原理是对于给定的聚类只要临近数据点的密度超过了一定的阈值,那么就可以将这些点包含进来。即在一个给定的半径内至少要包含设定的最小个数的对象。每个聚类都以局部模式最大化密度函数。这种聚类方法的大部分工作都是在基于多元高斯密度分布的假设前提下进行的。其中典型的基于密度的聚类方法有DBSCAN算法、Optics算法l等。
    基于模型的聚类方法利用特定的数学模型优化数据,使其适合所用的模型,不同于一般的聚类方法,基于模型的方法不仅要确定聚类对象,而月.要找出每个聚类所具有的特性,每个聚类都代表一个类别。通常有决策树和神经网络两种方式。
    基于网格的聚类方法将数据空间分成有限个单元,形成一个网状结构,聚类操作在单元的基础上进行,这种方式的优点是处理速度快。


你可能感兴趣的:(数据挖掘)