数学建模 --- K-means、系统聚类 与 DBSCAN

聚类

    • 聚类
      • 聚类需要注意的问题
      • 数据量纲不一致时
      • 1. K-means
      • 2. K-means++
      • 3. 系统(层次)聚类 --- 可以通过聚类谱系图选择合适的类别数
        • 思想
        • 聚类谱系图(聚类图)
        • 距离
          • 数据格式
          • 样本间的距离
          • 类之间的距离
            • 组间平均连接法
            • 组内平均连接法
            • 重心法
          • 指标与指标间的距离
      • 4. DBSCAN --- 不用预先指定个数
        • 基本概念
    • SPSS求聚类
      • SPSS K-means++聚类
      • SPSS 系统聚类
    • 系统聚类方法中 直接估计聚类数量 --- 聚合系数折线图
      • 画图
      • 分析得到类别数
    • SPSS将聚类的结果进行绘图

聚类

聚类需要注意的问题

数学建模 --- K-means、系统聚类 与 DBSCAN_第1张图片

数据量纲不一致时

要对每个指标进行限减去均值再除以标准差
数学建模 --- K-means、系统聚类 与 DBSCAN_第2张图片

1. K-means

数学建模 --- K-means、系统聚类 与 DBSCAN_第3张图片

  • 聚类的效果与初始点的选择有关

数学建模 --- K-means、系统聚类 与 DBSCAN_第4张图片

数学建模 --- K-means、系统聚类 与 DBSCAN_第5张图片

2. K-means++

选择初始聚类中心之间相互距离尽可能要远
数学建模 --- K-means、系统聚类 与 DBSCAN_第6张图片

3. 系统(层次)聚类 — 可以通过聚类谱系图选择合适的类别数

把最为接近的点聚为一类

思想

因为查重,不可直接使用
数学建模 --- K-means、系统聚类 与 DBSCAN_第7张图片

数学建模 --- K-means、系统聚类 与 DBSCAN_第8张图片

  • 过程中类的个数为一后,得到聚类图,可以根据聚类图后决定分类的个数

聚类谱系图(聚类图)

数学建模 --- K-means、系统聚类 与 DBSCAN_第9张图片

距离

这些距离最后得到的聚类图不同,但可以根据比较容易解释的聚类图,来进行选距离

数据格式

数学建模 --- K-means、系统聚类 与 DBSCAN_第10张图片

样本间的距离

数学建模 --- K-means、系统聚类 与 DBSCAN_第11张图片

  • 绝对值距离:一般用于网状结构(一般不能直接按直线进行计算)
类之间的距离

将样本划分为类后,需要定义每个类之间的距离
数学建模 --- K-means、系统聚类 与 DBSCAN_第12张图片

组间平均连接法

数学建模 --- K-means、系统聚类 与 DBSCAN_第13张图片

组内平均连接法

数学建模 --- K-means、系统聚类 与 DBSCAN_第14张图片

重心法

数学建模 --- K-means、系统聚类 与 DBSCAN_第15张图片

指标与指标间的距离

一般用于将各个指标进行分类 而不是 将各个样本进行分类
数学建模 --- K-means、系统聚类 与 DBSCAN_第16张图片

4. DBSCAN — 不用预先指定个数

可以有效处理异常数据
数学建模 --- K-means、系统聚类 与 DBSCAN_第17张图片

基本概念

数学建模 --- K-means、系统聚类 与 DBSCAN_第18张图片
数学建模 --- K-means、系统聚类 与 DBSCAN_第19张图片

SPSS求聚类

SPSS K-means++聚类

数学建模 --- K-means、系统聚类 与 DBSCAN_第20张图片

  • 界面
    数学建模 --- K-means、系统聚类 与 DBSCAN_第21张图片
  1. 变量:代表各个指标
  2. 标注依据:对什么进行聚类,得到的聚类结果以该指标进行标注
  3. 聚类数:要得到几类
  • 迭代按钮
    数学建模 --- K-means、系统聚类 与 DBSCAN_第22张图片
  • 保存按钮
    数学建模 --- K-means、系统聚类 与 DBSCAN_第23张图片
    聚类成员:会生成一个新的变量,会得到聚类后属于哪一类

数学建模 --- K-means、系统聚类 与 DBSCAN_第24张图片

  • 选项按钮
    数学建模 --- K-means、系统聚类 与 DBSCAN_第25张图片

SPSS 系统聚类

数学建模 --- K-means、系统聚类 与 DBSCAN_第26张图片

  • 方法按钮中
  1. 聚类方法:类与类之间的距离方法
  2. 区间:点与点之间的方法
  3. 标准化:量纲不同需要进行标准化
  • 保存按钮中
    先选择无,输出聚类谱系图(聚类图)后
    再选择 单个解 输入想要的聚类数

系统聚类方法中 直接估计聚类数量 — 聚合系数折线图

数学建模 --- K-means、系统聚类 与 DBSCAN_第27张图片

  • 所有类的总畸变程度 == 聚合系数

由上述定义:在类别数增加时,聚合系数会不断减小

  • 例如:
    数学建模 --- K-means、系统聚类 与 DBSCAN_第28张图片

画图

  1. 在得到的 系统聚类 结果中,有集中计划
  2. 将集中计划系数一栏复制到excel表中并按照降序排好数学建模 --- K-means、系统聚类 与 DBSCAN_第29张图片
  3. excel画图
    数学建模 --- K-means、系统聚类 与 DBSCAN_第30张图片

分析得到类别数

  • 根据所画的图,图中聚合系数下降快到下降慢的点对应的类别数为所选择的类别数
  • 可以根据这个图得到类别数,如果类别数也符合解释的画,也可以直接在SPSS软件中使用该类别数K

SPSS将聚类的结果进行绘图

适用于指标不大于3个,类别数不是很多的聚类
数学建模 --- K-means、系统聚类 与 DBSCAN_第31张图片

数学建模 --- K-means、系统聚类 与 DBSCAN_第32张图片

你可能感兴趣的:(聚类,数学建模)