无监督学习

K均值算法的优缺点是什么?如何对其进行调优?

K均值算法有一些缺点,例如受初值和离群点的影响,每次的结果不稳定,结果通常不是全局最优而是局部最优解,无法很好的解决数据簇分布差别比较大的情况(比如一类是另一类样本数量的100倍),不太适用于离散分裂等。

但是K均值聚类算法的优点主要体现在:对于大数据集。K均值聚类算法相对是可伸缩和高效的,他的计算复杂度是O(NKt)接近与线性,其中N是数据对象的数目,K是聚类的簇数,t是迭代的轮数。尽管算法经常以局部最优结束,但一般情况下达到局部最优已经可以满足聚类的需求。

希望找到最好的参数θ,能够使最大似然目标函数取最大值。

目标是使损失函数最小,在E-step时,找到一个最逼近目标的函数γ;在M-step时,固定函数γ,更新均值μ(找到当前函数下的最好的值)。所以一定会收敛了.

聚类评估(轮廓系数Silhouette Coefficient)

这个指标计算的是样本i到同簇其他样本的平均距离 , 越小,说明样本i越应该被聚类到该簇。将 称为样本i的簇

内不相似度。

计算样本i到其他某簇的所有样本的平均距离,称为样本i与簇 的不相似度。

接近1,则说明样本i聚类合理

接近-1,则说明样本i更应该分类到另外的簇

若 近似为0,则说明样本i在两个簇的边界上。

我们对标准化前后的数据进行轮廓系数计算:


做标准化的结果比较低,不做标准化的结果比较高。这是因为特征的重要性我们是不知道的,我们将calories的重要度通过标准化降低之后可能会造成不好的影响。

,我们就有了kmeans的一个标准流程:我们先进行聚类,然后可视化展示,之后再评估,想一想什么参数

比较合适,再重新聚类

你可能感兴趣的:(无监督学习)