K-means理论步骤

K-means算法具体步骤:

1、数据预处理:剔除离群点、数据归一化、数据标准化

数据预处理是数据挖掘或机器学习一定要进行的一个步骤。因为我们讨论的是算法,所有的算法一定要有一个输入,这个输入就来源于数据。输入的数据通常是在真实的情况下采集而来的(我个人理解为就像淘金一样,要把金子筛出来),既然是真实的数据,难免就会有一些不完美的情况。数据预处理的目的就是通过这种预加工操作,使得这些数据可以满足算法的输入的需要。

剔除离群点:剔除离群点是指在数据预处理过程中,删除数据集中的离群点,以使模型更准确地预测。离群点是指与其他数据点明显不同的数据点,通常与大多数数据点有明显的差异。剔除离群点的目的是为了减少噪声,并使模型更加准确。

数据归一化:比如说我们在测量距离的时候,有可能会用  m  作为单位,也有可能会用  km  作为单位,这样的话采集的数值会有很大的差异。所以为了消除这样的差异,我们需要将数据统一放缩到0-1之间。之所以叫归一化,是因为要把它的值域限定到0-1之间。

数据标准化:将数据变换为均值为0,标准差为1的分布

2、初始化k个中心点

3、定义损失函数

4、迭代到算法收敛为止

你可能感兴趣的:(机器学习,数据挖掘,python,kmeans,数据挖掘,算法)