客户分群-聚类算法

机器学习算法分类

有监督学习

有训练样本

  • 分类模型
  • 预测模型

无监督学习

无训练样本

  • 关联模型
  • 聚类模型

聚类算法

介绍

  • 聚类就是将一组对象划分成簇(cluster),使簇内对象相似性尽量大,而簇间对象相似性尽量小。
  • 划分法
  • 层次法
  • 基于密度的方法
  • 基于网格的方法
  • 基于模型的方法

比较

聚类
  • 无监督学习方式:需要解决将若干无标记对象进行划分的问题,使之成为有意义的聚类。
  • 聚类数目未知 :需要以某种距离度量为基础,将所有对象进行分类,使得同一聚类之间距离最小,不同聚类之间距离最大。
分类
  • 有监督学习方式:利用已经过标记的对象进行学习(训练),构造模型,然后用其对新对象进行标记。
  • 聚类数目已知 :对每个新对象标记为目标数据库中已存在的类别。
聚类算法的应用
商业
  • 市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说消费习惯。
生物学
  • 用来动植物分类和对基因进行分类,获取对种群固有结构的认识。
保险
  • 聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅区域,价值,来鉴定一盒城市的房产分组。

K均值聚类算法详细介绍

K均值也成 K-means 算法,即快速聚类
K-means 聚类思想

以空间中K个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐层次更新各聚类中心的值,直至得到最好的聚类结果。

聚类变量
  • 变量类型: 数值型
  • 输入变量 :有
  • 输出变量:无
相似度测度
  • 采用欧氏距离测度数据之间的差异程度
聚类中心
  • 类的重心
收敛准则
  • 误差平方和函数
算法的优点
  • 算法快速、简单
  • 对大数据集有较高的效率并且是可伸缩性的
  • 时间复杂度近于线性,而且适合挖掘大规模的数据集
算法缺点
  • 在K-means算法中 K 是事先给定的,这个K 值的选定是非常难以估计的。
  • 初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效地聚类结果。
  • 只适用于连续数值型输入变量。

你可能感兴趣的:(客户分群-聚类算法)