聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类

一、划分聚类:根据距离(相似度) 划分

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第1张图片

 曼哈顿距离:距离很近情况下的近似计算;切比雪夫距离:某一维度距离特别大,其他维度距离都很近的情况下距离计算

大多数情况都用欧氏距离

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第2张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第3张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第4张图片

1.1. k-means 

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第5张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第6张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第7张图片

 解决初值敏感的算法思路:

主要思想:1)做一部分抽样,根据概率可以将原始样本稀疏化,剔除少数异常样本的影响(k-means||)选择初始簇心;2)k值从2开始,不断增加到k(二分k-means);3)对样本多的进行划分,或者对误差和SSE大的样本集继续划分二分k-means)

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第8张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第9张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第10张图片怎么缺点簇的数量k的算法思路:

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第11张图片聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第12张图片

怎么解决大规模数据集收敛速度的算法思路: 

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第13张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第14张图片

实际过程中,一般用轮廓系数/api中的km.score(X) 来度量距离总和,其他的评估指标一般不用

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第15张图片 2、层次聚类聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第16张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第17张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第18张图片

birch: 适合大数据集 

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第19张图片 

 二、密度聚类(适用于非凸函数)

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第20张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第21张图片聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第22张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第23张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第24张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第25张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第26张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第27张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第28张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第29张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第30张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第31张图片 任意形状的数据的聚类

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第32张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第33张图片 聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第34张图片

聚类:划分聚类(k-means、k-means||、层次聚类)+密度聚类_第35张图片 

你可能感兴趣的:(人工智能学习)