统计学习方法学习笔记:第十四章:聚类方法

第十四章:聚类方法

基本概念

聚类是根据样本之间的相似度或距离来将样本进行归类,不同的距离度量方式会影响最终的聚类效果,常用的距离或相似度有下列:

  • 闵可夫斯基距离:欧式、曼哈顿距离、切比雪夫距离等
  • 马哈拉诺比斯距离: d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 , d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}}, dij=[(xixj)TS1(xixj)]21,其中S为样本集合的协方差矩阵
  • 相关系数: r i j = ∑ k = 1 m ( x k i − x i ‾ ) ( x k j − x j ‾ ) [ ∑ k = 1 m ( x k i − x i ‾ ) 2 ∑ k = 1 m ( x k j − x j ‾ ) 2 ] 1 2 ; r_{ij}=\frac{\displaystyle\sum_{k=1}^m(x_{ki}-\overline{x_i})(x_{kj}-\overline{x_j})}{[\displaystyle\sum_{k=1}^m(x_{ki}-\overline{x_i})^2\sum_{k=1}^m(x_{kj}-\overline{x_j})^2]^{\frac{1}{2}}}; rij=[k=1m(xkixi)2k=1m(xkjxj)2]21k=1m(xkixi)(xkjxj);相关系数的绝对值越接近1,表示样本越相似;越接近0,表示样本越不相似;
  • 夹角余弦:这里就是向量的夹角余弦

还有各种 类 或 簇 的 定 义 \color{red}{类或簇的定义} ,以及 类 与 类 之 间 距 离 : 最 短 、 最 长 、 中 心 、 平 均 \color{red}{类与类之间距离:最短、最长、中心、平均} 的定义;具体可参见课本;

层次聚类

有聚合算法和分裂算法,以聚合聚类为例,要确定三要素: 距 离 或 相 似 度 ( 各 种 距 离 、 相 关 系 数 等 ) 、 合 并 规 则 ( 通 常 为 类 间 距 离 最 小 ) 、 停 止 条 件 ( 类 的 个 数 或 类 的 直 径 达 到 阈 值 ) \color{red}{距离或相似度(各种距离、相关系数等)、合并规则(通常为类间距离最小)、停止条件(类的个数或类的直径达到阈值)} ,大致过程:把所有的样本归为不同的类,然后根据合并规则将其中的两个类合并为一个类,反复进行,直到达到停止条件;得到的聚类结果是层次化的类别

K-Means聚类

算法叙述如下:
输入:n个样本的集合X;
输出:样本集合的聚类C。

  1. 初始化。令 t = 0,随机选择k个样本点作为初始聚类中心 m ( 0 ) = ( m 1 ( 0 ) , ⋯   , m l ( 0 ) , ⋯   , m k ( 0 ) ) . m^(0)=(m_1^{(0)},\cdots,m_l^{(0)},\cdots,m_k^{(0)}). m(0)=(m1(0),,ml(0),,mk(0)).
  2. 聚类,根据当前的样本中心 m ( t ) m^{(t)} m(t),将所有样本指派到距离其最近的那个样本中心,构成剧类结果 C ( t ) C^{(t)} C(t)
  3. 计算新的样本中心,由聚类结果 C ( t ) C^{(t)} C(t)计算得到
  4. 如果收敛则停止,否则令 t = t + 1 t=t+1 t=t+1,返回2;

算法特点:

  • 得到的类别是平坦的、非层次化的,算法是迭代算法,不能保证得到全局最优
  • 选择不同的初始中心,最终会得到不同的结果,初始中心的选择可以使用层次聚类,得到k个类时停止,然后从这 k 个类中选择一个与中心距离最近的点作为初始中心点;
  • 关于 k 值的选择,根据类的平均直径来选择最优的k值,一般来说 类 别 数 变 小 时 , 平 均 直 径 会 增 加 ; 类 别 数 变 大 超 过 某 个 值 以 后 , 平 均 直 径 会 不 变 , 这 个 值 往 往 就 是 我 们 要 选 择 的 最 优 k 值 \color{red}{类别数变小时,平均直径会增加;类别数变大超过某个值以后,平均直径会不变,这个值往往就是我们要选择的最优 k 值} k

你可能感兴趣的:(统计学习)