一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。
在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。
用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别
基于位置信息的商业推送,新闻聚类,筛选排序
图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段
sklearn.cluster.KMeans(n_clusters=8)
随机创建不同二维数据集作为训练集,并结合k-means算法将其聚类,尝试分别聚类不同数量的簇,并观察聚类效果:
from sklearn.datasets.samples_generator import make_blobs
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
# 1. 生成数据
# make_blobs(n_features=生成数据维度,n_samples=样本数量,centers=[每个类别中心坐标],cluster_std=[每个类别离散程度-方差])
x,y = make_blobs(n_features=2,n_samples=1000,centers=[[-2,-2],[-1,-1],[0,0],[1,1]],cluster_std=[0.4,0.2,0.2,0.2])
# 绘制图像
plt.figure(figsize=(20,8))
plt.scatter(x[:,0],x[:,1],c=y)
plt.show()
# 用Kmeans聚类
# 建立模型
estimator = KMeans(n_clusters=4)
# 聚类算法属无监督学习,只传递特征值
estimator.fit(x)
# 获取分类结果即预测值
y_predict = estimator.predict(x)
# 绘制图像
# 聚类后改变的是每个样本目标值即y即类别,而非x的值
plt.figure(figsize=(20,8))
plt.scatter(x[:,0],x[:,1],c=y_predict)
plt.show()
通过下图解释实现流程:
STEP1:随机在数据中选取三个点,当做三个类别的中心点(K1,K2,K3)
STEP2:计算剩余点分别到这三个点的距离,从而每个样本点有三个距离(a,b,c),从中选择距离最近的一个点作为自己的标记,形成三个族群
STEP3:分别计算这三个族群的平均值,把三个平均值与之前的三个旧中心点(K1,K2,K3)进行比较,如果相同,则结束聚类;如果不相同,则将这三个平均值作为新的中心,STEP2。
k-means其实包含两层内容:
K : 初始中心点个数(计划聚类数)
means:求中心点到其他数据点距离的平均值
由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。
案例:
1、随机设置K个特征空间内的点作为初始的聚类中心(本案例中设置p1和p2)
2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别
3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
4、如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程【经过判断,需要重复上述步骤,开始新一轮迭代】
5、当每次迭代结果不变时,认为算法收敛,聚类完成,K-Means一定会停下,不可能陷入一直选质心的过程。
SSE:将所有样本到对应类别中心的距离平方加起来
下图中数据-0.2, 0.4, -0.8, 1.3, -0.7, 均为真实值和预测值的差
在k-means中的应用:
公式各部分内容:
上图中: k=2
在决定什么时候停止训练时,肘形判据同样有效,数据通常有更多的噪音,在增加分类无法带来更多回报时,我们停止增加类别。
结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的效果:
目的:
内部距离最小化,外部距离最大化
S = 0意味着a=b即两个簇相同,且样本i为两个簇交点;s<0,意味着a>b,即a簇的样本i在b簇内,即样本被分错了。S越大越接近1,表明分类效果越好。
计算样本i到同簇其他样本的平均距离ai,ai 越小样本i的簇内不相似度越小,说明样本i越应该被聚类到该簇。
计算样本i到最近簇Cj 的所有样本的平均距离bij,称样本i与最近簇Cj 的不相似度,定义为样本i的簇间不相似度:bi =min{bi1, bi2, …, bik},bi越大,说明样本i越不属于其他簇。
求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。
平均轮廓系数的取值范围为[-1,1],系数越大,聚类效果越好。
簇内样本的距离越近,簇间样本距离越远
Calinski-Harabasz:
类别内部数据的协方差越小越好,类别之间的协方差越大越好(换句话说:类别内部数据的距离平方和越小越好,类别之间的距离平方和越大越好),
这样的Calinski-Harabasz分数s会高,分数s高则聚类效果越好。
tr为矩阵的迹, Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵
m为训练集样本数,k为类别数。
使用矩阵的迹进行求解的理解:
矩阵的对角线可以表示一个物体的相似性
在机器学习里,主要为了获取数据的特征值,那么就是说,在任何一个矩阵计算出来之后,都可以简单化,只要获取矩阵的迹,就可以表示这一块数据的最重要的特征了,这样就可以把很多无关紧要的数据删除掉,达到简化数据,提高处理速度。
CH需要达到的目的:
用尽量少的类别聚类尽量多的样本,同时获得较好的聚类效果。
k-means算法小结
优点:
缺点:
Canopy聚类算法
优点:
1.Kmeans对噪声抗干扰较弱,通过Canopy对比,将较小的NumPoint的Cluster直接去掉有利于抗干扰。
2.Canopy选择出来的每个Canopy的centerPoint作为K会更精确。
3.只是针对每个Canopy的内做Kmeans聚类,减少相似计算的数量。
缺点:
1.算法中 T1、T2的确定问题 ,依旧可能落入局部最优解
K-means++
算法步骤:
(1)从输入的数据点集合中随机选择一个点作为第一个聚类中心
(2)对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
(3)选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大
(4)重复2和3直到k个聚类中心被选出来
(5)利用这k个初始的聚类中心来运行标准的k-means算法
kmeans++目的,让选择的质心尽可能的分散
如下图中,如果第一个质心选择在圆心,那么最优可能选择到的下一个点在P(A)这个区域(根据颜色进行划分)
实现流程:
1.所有点作为一个簇
2.将该簇一分为二
3.选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。
4.以此进行下去,直到簇的数目等于用户给定的数目k为止。
隐含的一个原则
因为聚类的误差平方和能够衡量聚类性能,该值越小表示数据点越接近于他们的质心,聚类效果就越好。所以需要对误差平方和最大的簇进行再一次划分,因为误差平方和越大,表示该簇聚类效果越不好,越有可能是多个簇被当成了一个簇,所以我们首先需要对这个簇进行划分。
二分K均值算法可以加速K-means算法的执行速度,因为它的相似度计算少了并且不受初始化问题的影响,因为这里不存在随机点的选取,且每一步都保证了误差最小
算法流程:
( 1 )总体n个样本点中任意选取k个点作为medoids
( 2 )按照与medoids最近的原则,将剩余的n-k个点分配到当前最佳的medoids代表的类中
( 3 )对于第i个类中除对应medoids点外的所有其他点,按顺序计算当其为新的medoids时,代价函数的值,遍历所有可能,选取代价函数最小时对应的点作为新的medoids
( 4 )重复2-3的过程,直到所有的medoids点不再发生变化或已达到设定的最大迭代次数
( 5 )产出最终确定的k个类
K-medoids和K-means是有区别的,不一样的地方在于中心点的选取
降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
降低随机变量的个数
数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。
方法
删除低方差的一些特征,前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。
sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
from sklearn.feature_selection import VarianceThreshold
import pandas as pd
data = pd.read_csv('/home/python/Desktop/test_data/factor_returns.csv')
data.head()
x = data.iloc[:,1:10] # 取1-10列作为特征值
x.shape # (2318, 9)
# 初始化转换器
# threshold低于多少方差进行过滤
transoform = VarianceThreshold(threshold=1.0)
res = transoform.fit_transform(x)
res.shape # (2318, 8)
主要实现方式:
皮尔逊相关系数(Pearson Correlation Coefficient)
反映变量之间相关关系密切程度的统计指标
相关系数的值介于–1与+1之间,即–1≤ r ≤+1。其性质如下:
案例:
= 0.9942
所以最终得出结论是广告投入费与月平均销售额之间有高度的正相关关系。
Api
from scipy.stats import pearsonr
x1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]
x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]
from scipy.stats import pearsonr
# 皮尔逊相关系数
pearsonr(x1,x2) # 传递两列特征值 # (0.9941983762371884, 4.922089955456964e-09)
斯皮尔曼相关系数(Rank IC)
反映变量之间相关关系密切程度的统计指标
n为等级个数,d为二列成对变量的等级差数
等级差
一个数的等级,就是将它所在的一列按照从小到大排序后,这个数所在的位置。
根据公式计算可得:
X和Y的斯皮尔曼相关系数 rs = 0.875
Api
from scipy.stats import spearmanr
x1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]
x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]
from scipy.stats import spearmanr
# 斯皮尔曼相关系数
spearmanr(x1,x2) # SpearmanrResult(correlation=0.9999999999999999, pvalue=6.646897422032013e-64)
主成分分析(PCA)
定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量
作用:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
应用:回归分析或者聚类分析当中
主成分分析也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分( principal components)。新的低维数据集会经可能的保留原始数据的变量。
PCA将数据投射到一个低维子空间实现降维。例如,二维数据集降维就是把点投射成一条线,数据集的每个样本都可以用一个值表示,不需要两个值。三维数据集可以降成二维,就是把变量映射成一个平面。一般情况下,n维数据集可以通过映射降成k维子空间,其中k是选取的主成分数目。
PCA
API
sklearn.decomposition.PCA(n_components=None)
将数据分解为较低维数空间
data = [[2,8,4,5],
[6,3,0,8],
[5,4,9,1]]
from sklearn.decomposition import PCA
# 初始化转换器
# n_components 小数,保留百分之多少信息;整数,减少到多少特征.
transform = PCA(n_components=0.9)
# 转化数据
transform.fit_transform(data)
data = [[2,8,4,5],
[6,3,0,8],
[5,4,9,1]]
from sklearn.decomposition import PCA
# 初始化转换器
# 整数,降低到多少维度
transfer = PCA(n_components=3)
# 转化数据
transform.fit_transform(data)
数据如下:
基本步骤:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
# 1.获取数据
order_product = pd.read_csv("./data/instacart/order_products__prior.csv")
products = pd.read_csv("./data/instacart/products.csv")
orders = pd.read_csv("./data/instacart/orders.csv")
aisles = pd.read_csv("./data/instacart/aisles.csv")
# 2.数据基本处理
# 2.1 合并表格
# 2.1 合并表格
table1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table2 = pd.merge(table1, orders, on=["order_id", "order_id"])
table = pd.merge(table2, aisles, on=["aisle_id", "aisle_id"])
# 2.2 交叉表合并
table = pd.crosstab(table["user_id"], table["aisle"])
# 2.3 数据截取
table = table[:1000]
# 3.特征工程-PCA
transfer = PCA(n_components=0.9)
data = transfer.fit_transform(table)
# 4.训练模型
estimator = KMeans(n_clusters=8, random_state=22)
estimator.fit_predict(data)
# 5.模型评估
silhouette_score(data, y_predict)