基于K-means算法的客户分群知识

机器学习基本概念

机器学习

机器学习是一门致力于研究如何通过计算的手段,根据经验改善系统自身的性能的学科。

算法

算法是指一系列规则和运算公式。将这些规则和运算公式作用到数据集上,能够得到一个分析结果,通常就是一 个模型。

模型构建

模型构建是指选择数据和算法,执行算法生成模型的过程。

数据集

数据集即我们机器学习使用的数据,往往具有很多维度,数据集常被划分为训练集和测试集。

机器学习分类

基于K-means算法的客户分群知识_第1张图片

K-means算法

基本概念

K-means算法是很典型的基于距离的聚类算法,一般采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

基于K-means算法的客户分群知识_第2张图片

内部迭代原理

为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度作为阈值。

基于K-means算法的客户分群知识_第3张图片

算法特点

  1. 使用速度快,原理简单易掌握。
  2. k均值算法中k值是需要预先给定的,因为得到的结果会服务于后续目的,所以k值的确定不能脱离实际。
  3. k均值的聚类算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,当数据量大的时候,算法开销很大。
  4. k均值是求得局部最优解的算法,所以对于初始化时选取的k个聚类的中心比较敏感,不同点的中心选取策略可能带来不同的聚类结果。

算法流程

基于K-means算法的客户分群知识_第4张图片

你可能感兴趣的:(聚类,算法)