机器学习-聚类之K-Means原理

聚类概念:

聚类属于无监督问题:手里没有标签

聚类实质是将相似的东西分到一组(簇)

难点在于参数的选择和评估 因为没有真值

K-Means 基本概念

K值是需要人为设定,即为簇的个数

质心:均值即为同一簇下所有点的均值

目标函数:用距离来度量 常用到欧式距离和余弦相似度(需要对数据先标准化)

机器学习-聚类之K-Means原理_第1张图片

Ci 为簇的质心 K为簇族数

实际工作流程:

参照下图1

主要步骤顺序为

1.首先人为先确定K值 该参数比较难确定

2.随机初始化K个簇的质心

3.根据距离划分簇的样本  如d1

4.划分完之后再根据样本数据重新确定质心

5.多次迭代直到簇的样本不在改变为止 即为完成

机器学习-聚类之K-Means原理_第2张图片

K-Means的优缺点:

优势:
简单,快速,适合常规数据集
K值难确定


劣势:
复杂度与样本呈线性关系
很难发现任意形状的簇

机器学习-聚类之K-Means原理_第3张图片

 

 

你可能感兴趣的:(机器学习)