第八章(2) 聚类:凝聚层次聚类

  1. 有两种产生层次聚类的方法:
    1. 凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇,这需要定义簇的邻近性概念
    2. 分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到剩下单点簇,需要确定每一步分裂哪个簇,如何分裂
  2. 基本凝聚:
    1. 定义簇之间的邻近性:簇的邻近性通常用特定的簇类型定义;凝聚层次聚类源于基于图的聚类,有下面3种:
      1. MIN(单链):簇的邻近度为不同簇的两个最近的点之间的邻近度
      2. MAX(全链):簇的邻近度为不同簇的两个最远的点之间的邻近度
      3. 组平均:簇的邻近度为不同簇的所有点对的邻近度的平均值
    2. 而取基于原型的聚类,簇用质心代替,则不同簇的邻近度的定义为簇质心之间的邻近度;而Ward方法通过合并两个簇导致的SSE增加来度量两个簇之间的邻近度(当然Ward方法的合并后的质心也是保证了目前簇的SSE最小)
    3. 特殊技术:
      1. 单链:使用图的术语,将所有点当做单点簇开始,每次在点之间加上一条链,最短的链先加,这些链将点合并成簇;擅长处理非椭圆形簇,但对噪声和离群点很敏感
      2. 全链:也是最短的链先加,点被完全连接则为簇;对噪声和离群点不敏感,可能使大的簇破裂,偏好球形
      3. 组平均:簇间的所有点对的组合的邻近度的平均
      4. Ward方法:簇的邻近度的定义为两个簇合并时导致的平方误差的增量(最小)
      5. 质心方法:计算簇的质心之间的距离来计算簇的邻近度(合并的两个簇可能比前一步合并的簇对更相似,而其他方法被合并簇之间的距离随层次聚类进展单调增加)
    4. 簇邻近度的Lance-Williams公式:以上的任意簇邻近度可以看作该公式中两个簇之间邻近度的不同参数的一种选择
    5. 层次聚类的问题:
      1. 缺乏全局目标函数:在每一步局部的确定哪些簇应当合并
      2. 处理不同大小簇的能力:如何处理待合并的簇对的相对大小:
        1. 加权:平等的对待所有簇,则赋予不同大小簇中的点不同的权值
        2. 非加权:考虑每个簇的点数,所有簇中的点有相同的权值;通常,非加权更可取
      3. 合并决策是最终的:合并的决策做出后不能撤销;改进方法是:
        1. 移动树的分支以改善全局目标函数
        2. 划分聚类技术来创建小簇,然后对这些小簇层次聚类
    6. 层次聚类的优缺点:实际上使用这种算法是因为基本应用需要层次结构,且聚类质量较高;缺点是开销大,合并不能撤销则对噪声和高维数据造成影响;可以先用划分聚类(k均值)来先部分聚类,这样问题可以解决

你可能感兴趣的:(数据挖掘导论)