数据挖掘笔记:聚类算法


啥是聚类?

在讲聚类之前,先讲讲无监督学习

  • 无监督学习:在训练的时候只需要特征矩阵X,不需要标签;
  • 聚类算法/无监督分类作用:将数据划分成有意义或有用的组(或簇);

聚类和分类的比较如下图所示:
数据挖掘笔记:聚类算法_第1张图片
数据挖掘笔记:聚类算法_第2张图片


KMeans

聚类作为机器学习的一种常用方式,其中最为著名的就是KMeans算法

  • 核心任务:根据我们设定好的K,找出K个最优的质心,并将离这些质心最近的数据分别分配到这些质心代表的簇中去;
  • 工作流程:如下图所示:
    数据挖掘笔记:聚类算法_第3张图片
    将其工作过程图像化后如下图所示:规定将数据分为4簇(K=4),其中白色X代表质心的位置
    数据挖掘笔记:聚类算法_第4张图片
    数据挖掘笔记:聚类算法_第5张图片

右边的那个图可以看出:第六次迭代之后,基本上质心的位置就不再改变了,生成的簇也变得稳定。此时聚类就完成了,接下来就可以对这四类数据进行不同的处理;

但是由于其是无监督学习,没有特别的指标来定义分类结果好坏。所以要结合问题的专业领域知识来综合分析聚类结果,从而得知分类效果的可信度;

你可能感兴趣的:(数据挖掘学习笔记,聚类,算法,数据挖掘)