机器学习之k均值聚类

文章目录

  • 前言
  • 一、什么是k-means聚类算法?
    • 1、软聚类
    • 2、硬聚类
  • 二、算法原理介绍
    • 1、损失函数
    • 2、算法流程
    • 3、时间复杂度
  • 三、举例计算
  • 参考文献


前言

今天一起学习下机器学习的今典分类算法之k-means

一、什么是k-means聚类算法?

k均值聚类是基于样本集合划分的聚类算法。简而言之,k 均值聚类将样本划分为 k 个类,将 n 个样本划分到 k 个类中,每个样本到其所属类中心的距离最小。k-means聚类属于硬聚类。

1、软聚类

软聚类就是把数据以一定的概率分到各类中,比如高斯混合模型(GMM),比如模糊 C 均值模型(Fuzzy c-Means)。聚类的结果往往是样本1在A类的概率是 0.7,在 B 类的概率是 0.3。软聚类又称为模糊聚类(fuzzy clustering)。

2、硬聚类

硬聚类就是把数据确切地分到某一类中,比如K-Means。

二、算法原理介绍

1、损失函数

定义样本与其所属类中心的距离总和为损失函数
W ( C ) = ∑ l = 1 k ∑ C ( i ) = l ∣ ∣ x i − x l ‾ ∣ ∣ 2 \begin{aligned} W(C) = \displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned} W(C)=l=1kC(i)=lxixl2
式中, x l ‾ = ( x ‾ 1 l , x ‾ 2 l , . . . , x ‾ m l ) \overline{x_l} = (\overline{x}_{1l}, \overline{x}_{2l}, ...,\overline{x}_{ml}) xl=(x1l,x2l,...,xml)是第 l 个类的中心(均值),m代表特征数。

k均值聚类是通过使损失函数最小化来选择最优的划分或者函数 C ∗ C\ast C
C ∗ = a r g m i n C ∑ l = 1 k ∑ C ( i ) = l ∣ ∣ x i − x l ‾ ∣ ∣ 2 \begin{aligned} C\ast = arg \underset{C}{min}\displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned} C=argCminl=1kC(i)=lxixl2

2、算法流程

输入:n 个样本的集合
输出:样本集合的聚类 C ∙ C\bullet C

  • 初始化。令 t = 0,随机选择 k 个样本点作为初始聚类中心 m ( 0 ) = ( m 1 ( 0 ) , m l ( 0 ) , . . . , m k ( 0 ) ) m^{(0)} = (m^{(0)}_1,m^{(0)}_l,...,m^{(0)}_k) m(0)=(m1(0),ml(0),...,mk(0))
  • 对样本聚类。对固定的类中心 m ( t ) = ( m 1 ( t ) , m l ( t ) , . . . , m k ( t ) ) m^{(t)} = (m^{(t)}_1, m^{(t)}_l, ..., m^{(t)}_k) m(t)=(m1(t),ml(t),...,mk(t)),其中, m ( t ) m^{(t)} m(t)为类 G l G_l Gl的中心,计算每个样本到中心的距离,将每个样本指派到距离最近的类中,构成聚类结果 G ( t ) G^{(t)} G(t)
  • 更新聚类中心。根据聚类结果 G ( t ) G^{(t)} G(t),计算当前各个类中样本的均值,作为新的类中心 m ( t + 1 ) = ( m 1 ( t + 1 ) , m l ( t + 1 ) , . . . , m k ( t + 1 ) ) m^{(t+1)} = (m^{(t+1)}_1,m^{(t+1)}_l,...,m^{(t+1)}_k) m(t+1)=(m1(t+1),ml(t+1),...,mk(t+1))
  • 根据约束条件判断是否结束,未结束则返回样本聚类(一般下一次迭代和上一次结果相同)。

3、时间复杂度

k 个类,需要迭代 k 次,每次迭代需要计算 n 个样本的 m 个特征的均值,所以k-means的时间复杂度为O(nmk),其中 n 为样本数,k 为类别数,m 为特征数。

三、举例计算

机器学习之k均值聚类_第1张图片

参考文献

李航.统计学习方法(第二版) [M].北京:清华大学出版社,2019

机器学习之k均值聚类_第2张图片

你可能感兴趣的:(机器学习,机器学习)