K-means

K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。

1. K-Means原理初探

    K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

    如果用数据表达式表示,假设簇划分为,则我们的目标是最小化平方误差E:

 

    其中是簇的均值向量,有时也称为质心,表达式为:

 

    如果我们想直接求上式的最小值并不容易,这是一个NP难的问题,因此只能采用启发式的迭代方法。

    K-Means采用的启发式方式很简单,用下面一组图就可以形象的描述。

K-means_第1张图片

    上图a表达了初始的数据集,假设k=2。在图b中,我们随机选择了两个k类所对应的类别质心,即图中的红色质心和蓝色质心,然后分别求样本中所有点到这两个质心的距离,并标记每个样本的类别为和该样本距离最小的质心的类别,如图c所示,经过计算样本和红色质心和蓝色质心的距离,我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红色和蓝色的点分别求其新的质心,如图4所示,新的红色质心和蓝色质心的位置已经发生了变动。图e和图f重复了我们在图c和图d的过程,即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图f。

    当然在实际K-Mean算法中,我们一般会多次运行图c和图d,才能达到最终的比较优的类别。

2. 传统K-Means算法流程

    在上一节我们对K-Means的原理做了初步的探讨,这里我们对K-Means的算法做一个总结。

    首先我们看看K-Means算法的一些要点。

    1)对于K-Means算法,首先要注意的是k值的选择,一般来说,我们会根据对数据的先验经验选择一个合适的k值,如果没有什么先验知识,则可以通过交叉验证选择一个合适的k值。

    2)在确定了k的个数后,我们需要选择k个初始化的质心,就像上图b中的随机质心。由于我们是启发式方法,k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的k个质心,最好这些质心不能太近。

    好了,现在我们来总结下传统的K-Means算法流程。 

    输入是样本集,聚类的簇树k,最大迭代次数N

    输出是簇划分 

    1) 从数据集D中随机选择k个样本作为初始的k个质心向量: 

    2)对于n=1,2,...,N

      a) 将簇划分C初始化为

      b) 对于i=1,2...m,计算样本和各个质心向量的距离:,将标记最小的为所对应的类别。此时更新

      c) 对于j=1,2,...,k,对中所有的样本点重新计算新的质心

      e) 如果所有的k个质心向量都没有发生变化,则转到步骤3)

    3) 输出簇划分

3. K-Means初始化优化K-Means++

    在上节我们提到,k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的k个质心。如果仅仅是完全随机的选择,有可能导致算法收敛很慢。K-Means++算法就是对K-Means随机初始化质心的方法的优化。

    K-Means++的对于初始化质心的优化策略也很简单,如下:

    a)  从输入的数据点集合中随机选择一个点作为第一个聚类中心
    b) 对于数据集中的每一个点,计算它与已选择的聚类中心中最近聚类中心的距离
    c) 选择一个新的数据点作为新的聚类中心,选择的原则是:较大的点,被选取作为聚类中心的概率较大
    d) 重复b和c直到选择出k个聚类质心
    e) 利用这k个质心来作为初始化质心去运行标准的K-Means算法

4. K-Means距离计算优化elkan K-Means

    在传统的K-Means算法中,我们在每轮迭代时,要计算所有的样本点到所有的质心的距离,这样会比较的耗时。那么,对于距离的计算有没有能够简化的地方呢?elkan K-Means算法就是从这块入手加以改进。它的目标是减少不必要的距离的计算。那么哪些距离不需要计算呢?

    elkan K-Means利用了两边之和大于等于第三边,以及两边之差小于第三边的三角形性质,来减少距离的计算。

    第一种规律是对于一个样本点和两个质心。如果我们预先计算出了这两个质心之间的距离,则如果计算发现,我们立即就可以知道。此时我们不需要再计算,也就是说省了一步距离计算。

    第二种规律是对于一个样本点和两个质心。我们可以得到。这个从三角形的性质也很容易得到。

    利用上边的两个规律,elkan K-Means比起传统的K-Means迭代速度有很大的提高。但是如果我们的样本的特征是稀疏的,有缺失值的话,这个方法就不使用了,此时某些距离无法计算,则不能使用该算法。

5. 大样本优化Mini Batch K-Means

    在统的K-Means算法中,要计算所有的样本点到所有的质心的距离。如果样本量非常大,比如达到10万以上,特征有100以上,此时用传统的K-Means算法非常的耗时,就算加上elkan K-Means优化也依旧。在大数据时代,这样的场景越来越多。此时Mini Batch K-Means应运而生。

    顾名思义,Mini Batch,也就是用样本集中的一部分的样本来做传统的K-Means,这样可以避免样本量太大时的计算难题,算法收敛速度大大加快。当然此时的代价就是我们的聚类的精确度也会有一些降低。一般来说这个降低的幅度在可以接受的范围之内。

    在Mini Batch K-Means中,我们会选择一个合适的批样本大小batch size,我们仅仅用batch size个样本来做K-Means聚类。那么这batch size个样本怎么来的?一般是通过无放回的随机采样得到的。

    为了增加算法的准确性,我们一般会多跑几次Mini Batch K-Means算法,用得到不同的随机采样集来得到聚类簇,选择其中最优的聚类簇。

6. K-Means与KNN

    初学者很容易把K-Means和KNN搞混,两者其实差别还是很大的。

    K-Means是无监督学习的聚类算法,没有样本输出;而KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。

    当然,两者也有一些相似点,两个算法都包含一个过程,即找出和某一个点最近的点。两者都利用了最近邻(nearest neighbors)的思想。

7. K-Means小结

    K-Means是个简单实用的聚类算法,这里对K-Means的优缺点做一个总结。

    K-Means的主要优点有:

    1)原理比较简单,实现也是很容易,收敛速度快。

    2)聚类效果较优。

    3)算法的可解释度比较强。

    4)主要需要调参的参数仅仅是簇数k。

    K-Means的主要缺点有:

    1)K值的选取不好把握(改进:可以通过在一开始给定一个适合的数值给k,通过一次K-means算法得到一次聚类中心。对于得到的聚类中心,根据得到的k个聚类的距离情况,合并距离最近的类,因此聚类中心数减小,当将其用于下次聚类时,相应的聚类数目也减小了,最终得到合适数目的聚类数。可以通过一个评判值E来确定聚类数得到一个合适的位置停下来,而不继续合并聚类中心。重复上述循环,直至评判函数收敛为止,最终得到较优聚类数的聚类结果)。

    2)对于不是凸的数据集比较难收敛(改进:基于密度的聚类算法更加适合,比如DESCAN算法)

    3)如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。

    4) 采用迭代方法,得到的结果只是局部最优。

    5) 对噪音和异常点比较的敏感(改进1:离群点检测的LOF算法,通过去除离群点后再聚类,可以减少离群点和孤立点对于聚类效果的影响;改进2:改成求点的中位数,这种聚类方式即K-Mediods聚类(K中值))。

           6)初始聚类中心的选择(改进1:k-means++;改进2:二分K-means,相关知识详见这里和这里)。

 

k-means聚类效果评估

 

第一种
SSE 样本距离最近的聚类中心的距离总和 (簇内误差平方和)
只对单个族中的数据分析,族与族之间的关系没有涉及
所以可能有一定的问题
在sklearn中直接用km.inertia_就能得到

这是我使用之后的效果

#聚类

engine = create_engine('mysql+pymysql://root:123456@localhost:3306/stock?charset=utf8')
totalConcept = pd.read_sql_query(''' select * from totalConcept; ''' , engine)
totalConcept.drop(['index'],axis=1,inplace=True)


#分割数据
X, y = totalConcept.iloc[:, 1:].values, totalConcept.iloc[:, 0].values

from sklearn import preprocessing
#正则化
min_max_scaler = preprocessing.MinMaxScaler()
X_norm = min_max_scaler.fit_transform(X)

#kmeans聚类
#inertia样本到最近的聚类中心的距离总和
#肘部法则

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
distortions = []
for i in range(1, 40):
        km = KMeans(n_clusters=i,
                    init='k-means++',
                    n_init=10,
                    max_iter=300,
                    random_state=0)
        km.fit(X_norm)
        distortions.append(km.inertia_)

plt.plot(range(1,40), distortions, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()


得到如下结果

K-means_第2张图片

哈哈哈,这是什么鬼
所以ss可能在某些情况下不适用

第二种
轮廓系数
https://blog.csdn.net/sinat_29957455/article/details/80113972
这位小伙伴分享了什么事轮廓系数
考虑了族内族外量方面的因素,系数越大越好
sklearn中
metrics.silhouette_score(X_norm, km.labels_ , metric=‘euclidean’)
可以直接计算

另外需要注意的是,使用轮廓系数,族数量必须大于等于2

使用轮廓系数评估

from sklearn import metrics
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
scores = []
for i in range(2, 100):
    km = KMeans(        n_clusters=i,
                        init='k-means++',
                        n_init=10,
                        max_iter=300,
                        random_state=0      )
    km.fit(X_norm)
    scores.append(metrics.silhouette_score(X_norm, km.labels_ , metric='euclidean'))
plt.plot(range(2,100), scores, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('silhouette_score')
plt.show()


我这里计算了100个族,得到结果

K-means_第3张图片

最大值就在 3 这里,至于到底分几类,之后在讨论

第三种
Calinski-Harabaz Index
https://blog.csdn.net/u010159842/article/details/78624135
这位笔者充分解释了这个指数
这种评估也同时考虑了族内族外的因素
类别内部数据的协方差越小越好,类别之间的协方差越大越好
sklearn中
metrics.calinski_harabaz_score
直接计算

同样进行使用

from sklearn import metrics
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
ch_scores = []
for i in range(2, 100):
    km = KMeans(        n_clusters=i,
                        init='k-means++',
                        n_init=10,
                        max_iter=300,
                        random_state=0      )
    km.fit(X_norm)
    ch_scores.append(metrics.calinski_harabaz_score(X_norm, km.labels_))
plt.plot(range(2,100), ch_scores, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('calinski_harabaz_score')
plt.show()



得到结果

K-means_第4张图片
emmmmm,好吧,到底分几类,还需要联系股票中的基本面参数来分析,下一步,先可视化一下,再看下,km中的参数对结果有哪些影响,最后决定分几类,以及最终使用哪一类或者哪几类的概念

 

转载:https://blog.csdn.net/l974415301/article/details/87885141

https://blog.csdn.net/u014465639/article/details/71342072

 

 

 


 

你可能感兴趣的:(机器学习算法)