经典聚类算法——Kmeans详解

一、什么是聚类

Clustering (聚类)是常见的unsupervised learning (无监督学习)方法。

经典聚类算法——Kmeans详解_第1张图片

聚类的目的就是将大量数据中具有”相似”特征的数据或样本划分到同一个类别中

聚类模型建立在无类别标记的数据上,需要实现的目标只是把相似的样本聚到一起,即只是利用样本数据本身的分布规律

聚类模型会根据数据自身间的”距离”或”相似度”将他们划分成若干组,划分的基本原则就是使组内样本间距离最小化而组间距离最大化

常用的聚类算法如下:

经典聚类算法——Kmeans详解_第2张图片

二、kmeans算法基本原理

kmeans算法又称k均值算法,是最常用的聚类算法之一,它是基于点与点之间距离的相似度来计算最佳类别归属的方法,需要我们预先确定好聚类的类别数量

kmeans算法使用误差平方和准则函数来评价聚类性能。假设m为各个聚类类别的中心点,p为归属于该类别的样本,则kmeans的目的就是要找到各个点到其归属类别中心距离平方和最小的分类方案&#x

你可能感兴趣的:(白话机器学习,聚类,机器学习,算法)