机器学习(7)K-mean聚类

聚类属于非监督学习,k-mean是聚类中经典算法。非监督学习即是只有样本没有标签。

训练数据集{x(1),x(2),…,x(m)}{x(1),x(2),…,x(m)}(其中x(i)∈Rnx(i)∈Rn)和聚类数量KK(将数据划分为KK类);算法输出是KK个聚类中心μ1,μ2,…,μKμ1,μ2,…,μK和每个数据点x(i)x(i)所在的分类。

步骤:

1,初始化K个聚类中心μ1,μ2,…,μKμ1,μ2,…,μK;

2,对于每个数据点x(i)x(i),寻找离它最近的聚类中心,将其归入该类;即c(i)=mink||x(i)−μk||2c(i)=mink||x(i)−μk||2,其中c(i)c(i)表示x(i)x(i)所在的类;

3,更新聚类中心uk的值为所有属于类kk的数据点的平均值;

代价函数:



u是簇C的均值向量,上式计算样本与均值向量之间的距离。
python例子:https://gitee.com/CCHChenChangHong/JiQiXueXisample/tree/master/K-mean


机器学习(7)K-mean聚类_第1张图片

你可能感兴趣的:(机器学习)