记录篇:【菜菜scikit-learn机器学习】sklearn中的聚类算法K-Means

目录

1.无监督学习与聚类算法

sklearn中的聚类算法

2.KMeans

簇内误差平方和的定义和解惑

KMeans算法的时间复杂度

3.sklearn.cluster.KMeans

重要参数n_clusters

聚类算法的模型评估指标

当真实标签已知的时候

当真实标签未知的时候:轮廓系数

当真实标签未知的时候:Calinski-Harabaz Index


1.无监督学习与聚类算法

聚类算法又叫做 无监督分类 ,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中,如果我们手头有大量的当前和潜在客户的信息,我们可以使用聚类将客户划分为若干组,以便进一步分析和开展营销活动,最有名的客户价值判断模型RFM ,就常常和聚类分析共同使用。再比如,聚类可以用于降维和矢量量化( vector quantization),可以将高维特征压缩到一列当中,常常用于图像,声音,视频等非结构化数据,可以大幅度压缩数据量。

记录篇:【菜菜scikit-learn机器学习】sklearn中的聚类算法K-Means_第1张图片

sklearn中的聚类算法

聚类算法在 sklearn 中有两种表现形式,一种是类(和我们目前为止学过的分类算法以及数据预处理方法们都一样),需要实例化,训练并使用接口和属性来调用结果。另一种是函(function ),只需要输入特征矩阵和超参数,即可返回聚类的结果和各种指标。
输入数据
需要注意的一件重要事情是,该模块中实现的算法可以采用不同类型的矩阵作为输入。 所有方法都接受形状[n_samples, n_features] 的标准特征矩阵,这些可以从 sklearn.feature_extraction 模块中的类中获得。对于亲和力传播,光谱聚类和DBSCAN ,还可以输入 [n_sample,s n_samples] 的相似性矩阵,我们可以使用sklearn.metrics.pairwise模块中的函数来获取相似性矩阵。

2.KMeans

关键概念:簇与质心
KMeans 算法将一组 N 个样本的特征矩阵 X 划分为 K 个无交集的簇,直观上来看是簇是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值 通常被称为这个簇的“ 质心 centroids )。在一个二维平面中,一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。
KMeans 算法中,簇的个数 K 是一个超参数,需要我们人为输入来确定。 KMeans 的核心任务就是根据我们设定好的K ,找出K个最优的质心,并将离这些质心最近的数据分别分配到这些质心代表的簇中去。具体过程可以总结如下: 记录篇:【菜菜scikit-learn机器学习】sklearn中的聚类算法K-Means_第2张图片

 

那什么情况下,质心的位置会不再变化呢?当我们找到一个质心,在每次迭代中被分配到这个质心上的样本都是一致的,即每次新生成的簇都是一致的,所有的样本点都不会再从一个簇转移到另一个簇,质心就不会变化了。

簇内误差平方和的定义和解惑

聚类算法聚出的类有什么含义呢?这些类有什么样的性质?我们认为, 被分在同一个簇中的数据是有相似性的,而 不同簇中的数据是不同的 ,当聚类完毕之后,我们就要分别去研究每个簇中的样本都有什么样的性质,从而根据业务需求制定不同的商业或者科技策略。
聚类算法追求 簇内差异小,簇外差异大” 。而这个 差异 ,由 样本点到其所在簇的质心的距离 来衡量。对于一个簇来说,所有样本点到质心的距离之和越小,我们就认为这个簇中的样本越相似,簇内差异就越小。而距离的衡量方法有多种,令 表示簇中的一个样本点, 表示该簇中的质心,n 表示每个样本点中的特征数目,i表示组成点的每个特征,则该样本点到质心的距离可以由以下距离来度量:

记录篇:【菜菜scikit-learn机器学习】sklearn中的聚类算法K-Means_第3张图片

 

解惑: Kmeans 有损失函数吗?
记得我们在逻辑回归中曾有这样的结论:损失函数本质是用来衡量模型的拟合效果的,只有有着求解参数需求的算法,才会有损失函数。
Kmeans 不求解什么参数,它的模型本质也没有在拟合数据,而是在对数据进行一种探索。所以如果你去问大多数数据挖掘工程师,甚至是算法工程师,他们可能会告诉你说,K-Means 不存在什么损失函数,Inertia 更像是 Kmeans 的模型评估指标,而非损失函数。
但我们类比过了 Kmeans 中的 Inertia 和逻辑回归中的损失函数的功能,我们发现它们确实非常相似。所以,从“ 求解模型中的某种信息,用于后续模型的使用 这样的功能来看,我们可以认为 Inertia Kmeans 中的损失函数,虽然这种说法并不严谨。对比来看,在决策树中,我们有衡量分类效果的指标准确度accuracy ,准确度所对应的损失叫做泛化误差,但我们不能通过最小化泛化误差来求解某个模型中需要的信息,我们只是希望模型的效果上表现出来的泛化误差很小。因此决策树,KNN 等算法,是绝对没有损失函数的。

KMeans算法的时间复杂度

KMeans 算法的平均复杂度是 O(k*n*T) ,其中 k 是我们的超参数,所需要输入的簇数, n 是整个数据集中的样本量,T是所需要的迭代次数(相对的, KNN 的平均复杂度是 O(n) )。

3.sklearn.cluster.KMeans

重要参数n_clusters

n_clustersKMeans中的k,表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,但通常我们的聚类结果会是一个小于8的结果。通常,在开始聚类之前,我们并不知道n_clusters究竟是多少, 因此我们要对它进行探索。

聚类算法的模型评估指标

不同于分类模型和回归,聚类算法的模型评估不是一件简单的事。在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以我们使用预测的准确度,混淆矩阵,ROC 曲线等等指标来进行评估,但无论如何评估,都是在” 模型找到正确答案 的能力。而回归中,由于要拟合数据,我们有 SSE 均方误差,有损失函数来衡量模型的拟合程度。但这些衡量指标都不能够使用于聚类。
面试高危问题:如何衡量聚类算法的效果?
聚类模型的结果不是某种标签输出,并且聚类的结果是不确定的,其优劣由业务需求或者算法需求来决定,并且没有永远的正确答案。那我们如何衡量聚类的效果呢?
记得我们说过, KMeans 的目标是确保 簇内差异小,簇外差异大 ,我们就可以通过 衡量簇内差异来衡量聚类的效 。我们刚才说过, Inertia 是用距离来衡量簇内差异的指标,因此,我们是否可以使用 Inertia 来作为聚类的衡量指标呢?Inertia 越小模型越好嘛。可以,但是这个指标的缺点和极限太大。
首先,它不是有界的。我们只知道, Inertia 是越小越好,是 0 最好,但我们不知道,一个较小的 Inertia 究竟有没有达到模型的极限,能否继续提高。
第二,它的计算太容易受到特征数目的影响,数据维度很大的时候, Inertia 的计算量会陷入维度诅咒之中,计算量会爆炸,不适合用来一次次评估模型。
第三,它会受到超参数 K 的影响,在我们之前的常识中其实我们已经发现,随着 K 越大, Inertia 注定会越来越小,但这并不代表模型的效果越来越好了
第四, Inertia 对数据的分布有假设,它假设数据满足凸分布(即数据在二维平面图像上看起来是一个凸函数的样子),并且它假设数据是各向同性的(isotropic ),即是说数据的属性在不同方向上代表着相同的含义。但是现实中的数据往往不是这样。所以使用Inertia 作为评估指标,会让聚类算法在一些细长簇,环形簇,或者不规则形状的流形时表现不佳.

当真实标签已知的时候

虽然我们在聚类中不输入真实标签,但这不代表我们拥有的数据中一定不具有真实标签,或者一定没有任何参考息。当然,在现实中,拥有真实标签的情况非常少见(几乎是不可能的)。如果拥有真实标签,我们更倾向于使用分类算法。但不排除我们依然可能使用聚类算法的可能性。如果我们有样本真实聚类情况的数据,我们可以对于聚类算法的结果和真实结果来衡量聚类的效果。常用的有以下三种方法:互信息分 、V-measure、调整兰德系数

当真实标签未知的时候:轮廓系数

99% 的情况下,我们是对没有真实标签的数据进行探索,也就是对不知道真正答案的数据进行聚类。这样的聚类,是完全依赖于评价簇内的稠密程度(簇内差异小)和簇间的离散程度(簇外差异大)来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标。它是对每个样本来定的,它能够同时衡量:
1 )样本与其自身所在的簇中的其他样本的相似度 a ,等于样本与同一簇中所有其他点之间的平均距离
2 )样本与其他簇中的样本的相似度 b ,等于样本与下一个最近的簇中的所有点之间的平均距离,根据聚类的要求” 簇内差异小,簇外差异大 ,我们希望 b 永远大于 a ,并且大得越多越好。

当真实标签未知的时候:Calinski-Harabaz Index

除了轮廓系数是最常用的,我们还有卡林斯基 - 哈拉巴斯指数( Calinski-Harabaz Index ,简称 CHI ,也被称为方差比标准),戴维斯- 布尔丁指数( Davies-Bouldin )以及权变矩( Contingency Matrix )可以使用。

你可能感兴趣的:(机器学习,人工智能,机器学习)