在前几节(5-9)知识中我们学习的是有关于监督学习的算法,本节开始我们将要开始学习无监督学习的相关知识。
在一个典型的监督学习中,我们有一个有标签的训练集。我们的目标是找到能够区分正样本和负样本的决策边界。
与此不同的是,在无监督学习中,我们的数据没有附带任何标签。我们会通过分析大量的无标签数据,来发现数据内在的一些结构特征。
今天我们将讲解无监督学习的常见算法——聚类。
如图所示,是一个典型的无监督学习样本的相关数据,数据集中没有标签存在。
显然我们可以将图示数据分成两类,将相似的对象归为同一类,不相似的对象则划分到不同类中。而我们将数据分成的这两类,称为簇。
用术语来说,就是:
聚类并不关心数据集的标签是什么,它的目标只是将相似的数据聚到一起,成为一个类。
分类则需要对现有的数据集以及所属标签进行学习,然后对未知数据进行预测,确认其所属分类。
聚类是解决无监督学习常见问题的最有用的技术。我们可以通过对相似的数据点进行分组,来找到数据中的特征。
举个栗子:
精准的识别出会购买产品的人群,并且对其进行定制化广告营销,这是聚类的作用之一。当我们想要识别原始数据中所潜在的分组,聚类是一种很好用的手段。
既然聚类如此重要,那么我们该如何进行聚类呢?
今天我们讲解以下两个方法:K-Means聚类,Hierarchical聚类。
K-Means算法会使用迭代过程,将数据集划分成K个簇。
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
# 导入k_means算法
from sklearn.cluster import KMeans
from scipy.spatial import Voronoi,voronoi_plot_2d
#创建玩具数据集,下面是不同玩具机器代号(第一个值)
#0-2:Action Figures
# 3-5:building blocks
# 6-8:cars
# 下面是不同适用年龄机器代号(第二个值)
# 0:5 year_olds
# 1:6 year_olds
# 2:7 year_olds
# 3:8 year_olds
# 4:9 year_olds
# 5:10 year_olds
# 创建数据及的数组
x=np.array([[0,4],[1,3], [2,5], [3,2], [4,0], [5,1], [6,4], [7,5], [8,3]])
# 用k-means算法建模,n_clusters代表K的值,random_stat确定质心初始化的随机数生成
kmeans=KMeans(n_clusters=3,random_state=0).fit(x)
# 画图
sns.set_style('darkgrid')
plt.scatter(x[:,0],x[:,1],c=kmeans.labels_,cmap=plt.get_cmap('winter'))
# 绘制群的边界和中心点
center=kmeans.cluster_centers_
plt.scatter(center[:,0],center[:,1],marker='x')
vor=Voronoi(center)
voronoi_plot_2d(vor,ax=plt.gca(),show_points=False,show_vertices=False)
# 设置坐标轴
plt.gca().set_xlim()
plt.gca().set_ylim()
plt.tight_layout()
plt.show()
Hierarchical聚类(分层聚类/层次聚类/系统聚类)是将数据集想象成一个分层的数据结构。然后通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树
上述方法被称为自上而下的分裂方法。
同理,我们也有自下而上的聚合方法:
当然,无论是自上而下还是自下而上,我们都可以在适合的时候选择停止,从而获得最合适的聚类。
相比K-means来说,hierarchical显得比较缓慢,并不适合大型的数据。但是hierarchical并不需要预先给定聚类的类别数,而是在运行的过程中选择合适的类别。
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
# 导入k_means算法
from sklearn.cluster import KMeans
from scipy.spatial import Voronoi,voronoi_plot_2d
#创建玩具数据集,下面是不同玩具机器代号(第一个值)
#0-2:Action Figures
# 3-5:building blocks
# 6-8:cars
# 下面是不同适用年龄机器代号(第二个值)
# 0:5 year_olds
# 1:6 year_olds
# 2:7 year_olds
# 3:8 year_olds
# 4:9 year_olds
# 5:10 year_olds
# 创建数据及的数组
x=np.array([[0,4],[1,3], [2,5], [3,2], [4,0], [5,1], [6,4], [7,5], [8,3]])
# 用k-means算法建模,n_clusters代表K的值,random_stat确定质心初始化的随机数生成
kmeans=KMeans(n_clusters=3,random_state=0).fit(x)
# 画图
sns.set_style('darkgrid')
plt.scatter(x[:,0],x[:,1],c=kmeans.labels_,cmap=plt.get_cmap('winter'))
# 绘制群的边界和中心点
center=kmeans.cluster_centers_
plt.scatter(center[:,0],center[:,1],marker='x')
vor=Voronoi(center)
voronoi_plot_2d(vor,ax=plt.gca(),show_points=False,show_vertices=False)
# 设置坐标轴
plt.gca().set_xlim()
plt.gca().set_ylim()
plt.tight_layout()
plt.show()
在本节中,我们学习了聚类和集群的相关知识。聚类可以让我们通过对相思数据点进行聚合,来对原始数据集进行分类。聚类是无监督学习中一种常见的算法,虽然它相对简单,但是功能强大。例如:我们可以使用居来进行购买人群分析,并且进行定向精准广告投放。对于企业来说,聚类是一个非常有用的技术。
自学自用,希望可以和大家积极沟通交流,小伙伴们加油鸭。创作不易,动起可爱的双手,来个赞再走呗 (๑◕ܫ←๑)