聚类分析

物以类聚

  • 类中的个体具有相似性,相似性聚类
    无监督学习:使用不知类别的样本集进行分类器设计
  • 基于概率密度函数估计的方法(难点在于 密度函数如何估计)
  • 基于样本集间相似性度量的方法(聚类分析)
    训练前,甚至没有确切的类别数目和类别定义,需要根据待分类样本集的实际特征分布情况与分类活动的应用目的,通过训练样本来学习出类别数目和“类别的操作定义”同时为训练样本分配类别
  • 同类样本间的相似性大于 不同类样本间的相似性
    有效性:来自分类算法与样本特征分布的匹配
    聚类分析没有完整的理论基础

特征设计对聚类分析的影响

  • 特征选取不当,使分类无效
  • 特征选取不足,使分类无效
  • 特征取多类,有多少个样本n取 n-1个特征的话,整个又太大了
    于是,需要降维,主成分分析
  • 另外 量纲选取不同 结果也很可能不同
    后面有个叫单位化处理,当我们选取一侧量纲过大时,在向量二次范数以上处理时
    量纲会有最小识别分别分度,所以 当一侧量纲过大过小 都有影响
  • 相似性(距离)测度不同,聚类结果则不同
  • 因此 特征,多少个特征,量纲,相似性度量(样本距离)
    不知道整个在数学上具体指哪一部分
  • 然而 前三个都是经验性的

相似性测度

  • 衡量模式之间相似性的一种量度
    由n个特征样本组成的n维向量,称为该模式的特征矢量
    距离越小 越相似
  • 欧式距离(Euclidean)


    94DC3167-A35A-4256-A911-CDB3F7AAF965.png

各特征维上应当是相同的物理量
注意同物理量 量纲要一致

  • 马氏距离(Mahalanobis)


    D3AB0B49-26E8-442A-B4E8-17C260A1EB70.png

    协方差各个方向的差别程度

  • 明氏距离
  • 汉明距离


    7FC2B1C1-39D7-43A1-8F94-2FBFE427E4D6.png

    位数值不相同的个数 主要用二值的

  • 角度相似距离


    AB90354B-1E0A-4651-B1C1-886702CF6199.png

    量纲不同 会影响结果,但是角度不会受量纲 放大缩小

  • Tanimoto测度
    BB958CDA-16DF-49CF-8BC4-43D5D913A5C9.png

聚类准则
-根据相似性测度确定的,衡量模式聚类结果中得到的聚类,是否满足某种优化目标的一个判断标准或方法
确定聚类准则的两种方式
1.阀值准则
2.函数准则

  • 近邻聚类算法
    问题:有N个待分类

  • 最大最小聚类法
    都是先验经验作为聚类中心,分类到聚类中心 Z1,Z2对应的类别中
    1.选任意模式样本组作为第一聚类中心
    2.选择离Z1距离最远的样本作为第二聚类中心Z2
    3.逐个计算各模式样本Xi与已确定的所有聚类中心Zi之间的距离,
    并选出其中的最小距离。例如:当目前聚类中心数k=2时,计算Di1=Xi-Zi

  • 最大最小聚类算法 已经做过题了 但是 当聚类中心改变 成三者时,差值就很多。
    然后θ 其实 和 阀值 和 聚类中心密度,个数 都是有直接关系当

  • 层次聚类法
    N个初始样本,各自成一类
    然后得各个类之间的距离矩阵D(n) NxN
    假设已求得距离矩阵D(n) n为逐次聚类合并当次数,两类合并为一类 重新计算
    还真是 自底向上构成一个树

  • 最短距离法

0EE5113E-3CA0-4D99-927A-D29E91E77049.png

K-均值算法 就是不断更新聚类中心,用上一次计算出的z值结果,作为下一次的聚类中心 进行计算。

你可能感兴趣的:(聚类分析)