第八章(3) 聚类:DBSCAN和簇评估

  1. 基于密度的聚类寻找被低密度区域分离的高密度区域
  2. 传统的密度:基于中心的方法:数据集中特定点的密度通过对该点半径之内的点计数(包括本身)来估计,关键是确定半径;根据基于中心的密度进行点分类:
    1. 稠密区域内的点(核心点):点的邻域由距离函数和指定半径决定;定义是该点的给定邻域内的点的个数>给定的阈值,则为核心点
    2. 稠密区域边缘上的点(边界点):落在某个核心点的邻域内
    3. 稀疏区域中的点(噪声或背景点):既非核心点也非边界点的任何点
  3. DBSCAN算法:任意两个距离在指定半径内的核心点放在同一个簇中,任意和核心点足够靠近的边界点也放到与核心点相同的簇中(如果一个边界点靠近不同簇的核心,那需要解决平局问题)
    1. 选择DBSCAN的参数:
      1. 指定半径:点的k个最近邻的距离;对于某个k,计算所有点的第k-距离,递增排序,发现有一部分k-距离急剧上升,这就是合适的半径
      2. 合适的半径下的邻域内的点数即为个数阈值
    2. 变密度的簇:密度的变化会让参数的阈值选择出现问题,低的话,有些高密度的簇内的点变成单点簇
  4. DBSCAN算法的优缺点:相对抗噪声,处理任意形状和大小的簇;问题是密度变化大,对于高维数据密度定义更困难,而且近邻计算需要计算所有点对邻近度时,算法开销大
  1. 簇评估:聚类分析是非监督的,所以簇评估不是聚类分析普遍使用的,或称簇确认
  2. 几乎所有聚类算法都会在数据集中发现簇,即使数据集根本没有自然的簇结构
  3. 簇确认的任务:
    1. 确定数据集的聚类趋势,识别数据中是否存在非随机结构
    2. 确定正确簇个数
    3. 不引用附加信息,评估聚类分析结果对数据拟合情况
    4. 将聚类分析结果和已知的客观结果比较
    5. 比较两个簇集
  4. 不同的信息情况下的簇确认:
    1. 非监督的(内部指标):聚类结构的优良性度量,不考虑外部信息
      1. 簇的凝聚性:确定簇中对象如何密切相关
      2. 簇的分离性:确定某个簇不同于其他簇的方面
    2. 监督的(外部指标):聚类算法发现的聚类结构与某种外部结构的匹配程度
    3. 相对的:比较不同的聚类或簇,用于比较的监督或非监督评估度量
  5. 非监督簇评估:使用凝聚度和分离度(一般是基于原型的和基于图的聚类技术);将k个簇的集合的总体簇有效性表示成个体簇有效性的加权和
    1. 凝聚度和分离度的基于图的观点:凝聚度定义为连接簇内点的邻近度中边的加权和;分离度为从一个簇的点到另一个簇的点的边的加权和
    2. 凝聚度和分离度的基于原型的观点:凝聚度为关于簇原型的邻近度的和;分离度有两种:
      1. 簇原型和总原型的分离度
      2. 簇原型之间的分离度
    3. 凝聚度和分离度的总度量
    4. 基于原型的凝聚度和基于图的凝聚度之间的关系:基于图的簇中逐对点的平均距离等于基于原型的簇的SSE
    5. 两种基于原型的分离性度量方法:分离度是组平方和SSB,即簇质心到所有数据点的总均值(即总质心)的距离的平方和;当簇的大小相等时,总SSB即质心之间的逐对距离
    6. 凝聚度和分离度之间的关系:总SSE+总SSB是一个常数TSS,所以最小化SSE就是最大化SSB
    7. 轮廓系数:结合了凝聚度和分离度;个体点的轮廓系数:
      1. 对于第i个对象,计算其到簇中所有其他对象的平均距离ai
      2. 计算第i个对象到不包含该对象的任意簇中所有对象的平均距离;关于所有簇,找出最小值bi
      3. 对于第i个对象的轮廓系数为si=(bi-ai)/max(ai,bi)
      4. -1<=轮廓系数<=1;但负值表示簇内点的平均距离还>点到其他簇的最小平均距离,并且ai越接近0越好,ai=0则si=1;所以是越大越在簇内部,越小越在簇边缘
  6. 非监督簇评估:使用邻近度矩阵:
    1. 通过相关性度量簇的有效性:数据集的相似度矩阵和基于簇标号的相似度矩阵的理想版本之间的相关性来评估聚类的优良性;基于密度和基于近邻的簇不是球形的,所以对它们而言不是好的度量
    2. 通过相似性矩阵可视的评价聚类
  7. 层次聚类的非监督评估:
    1. 共性分类距离:即两个对象首次放在同一个簇时的邻近度;两个合并簇的最小距离是0.1,则两个簇中的所有点的共性分类距离为0.1
    2. 共性分类相关系数CPCC:是特定类型的层次聚类对数据拟合程度的标准度量;越大越好
  8. 确定正确的簇个数:寻找簇个数的评估度量曲线图中的拐点等
  9. 聚类趋势:试图评估数据集中是否包含簇,使用统计检验来检测空间随机性
    1. Hopkins统计量:->0则高度聚类,->1则数据在数据空间有规律分布
  10. 簇有效性的监督度量:
    1. 面向分类的:比较聚类与基本事实类别,熵、纯度、F度量
      1. 熵:每个簇的熵计算,总熵为每个簇的加权和计算;越小越好
      2. 纯度:簇中数量最多的类的占比,总纯度即纯度的加权和
      3. 精度:簇中一个特定类的对象所占的比例
      4. 召回率:簇中包含一个特定类的所有对象的程度
      5. F度量:精度和召回率的组合,簇中包含一个特定类的对象和包含该类的所有对象的程度
    2. 面向相似性的:评估人工分类过程可以在多大程度上被聚类分析自动实现,涉及二元数据的相似性度量的Jaccard度量

你可能感兴趣的:(数据挖掘导论)