7.0 KMeans 聚类分析

1. KMeans原理

使用欧式距离,相似的事物的距离测量更短,不相似的距离更长。


image.png

image.png
image.png

分类和聚类的区别

两者的目标不一样,操作对象不一样
分类:拿到点,进行类别的划分,属于哪个类
聚类:拿到一组数据,进行类别的标注

特点

基于距离测量,准确度比较高,效率比较低(如果量级很大,比如200个特征,算法复杂度很高,要对所有样本点都进行距离的测量,而且要多次迭代进行运算)。

决定聚为几类,评价策略仅仅告知此种聚类效果好不好,真正决定应该聚为几类是业务需求说了算,而不是算法说了算。
需要聚为2类,那就怎么处理2类区分的更好。
比如对用户进行推广,高端商品推广高端用户,低端商品推广低端客户。


image.png

聚类分析时最好把特征值转换成高斯分布,因为高斯分布在此量级上效率会有所提升,且高斯分布能降噪。

KMeans常用场景

用户分群


image.png

你可能感兴趣的:(7.0 KMeans 聚类分析)