子空间聚类算法之PROCLUS

PROCLUS算法简介

  • PROCLUS算法
    • 算法总体介绍
    • 初始阶段
    • 迭代阶段
    • 优化阶段
    • 参考文献

PROCLUS算法

PROCLUS是由Aggarwal等人在1999年提出的一种子空间聚类算法。原文是《Fast Algorithms for Projected Clustering》,在ACM数据库可以进行下载。

算法总体介绍

PROCLUS是基于投影的子空间聚类算法,搜索策略为自顶向下。算法基于中心点思想,适合球形簇数据集,采用曼哈顿距离度量对象的相似性。

算法一共分为以下三个阶段:

  1. 初始阶段 ,选择中心点超集;
  2. 迭代阶段,确定每一个中心点的特征维度,通过对聚类结果进行分析,并不断迭代替换差的中心点,得到最优中心点集;
  3. 优化阶段,对中心点维度进行优化,改善聚类质量;

初始阶段

输入:数据集合 D D D,簇个数 K K K,常数 A A A,常数 B B B
输出:中心点集 M C MC MC

  1. 从数据集中随机选择 A ∗ K A*K AK A A A是常数)个数据构成初始中心点超集 M C ′ MC' MC
  2. 使用贪心算法从 M C ′ MC' MC中选择大小为 B ∗ K B*K BK B B B为常数,且 B < A B<A B<A)的中心点集 M C MC MC
    2.1 初始化 M C MC MC为空集
    2.2 从 M C ′ MC' MC中随机选择一个样本 m m m加入 M C MC MC(同时将 m m m M C ’ MC’ MC中移除)
    2.3 计算 M C ′ MC' MC中每个点与 M C MC MC中离该点最近的点的距离 d i s dis dis,选择 d i s dis dis最大的点 n n n,将 n n n加入 M C MC MC中(同时将 n n n M C ’ MC’ MC中移除)
    2.4 重复2.3直到 M C MC MC中样本点数为 B ∗ K B*K BK

迭代阶段

输入:数据集 D D D(大小为 N N N),中心点集 M C MC MC,簇平均维度 L L L,簇个数 K K K
输出:最终的中心点集 M M M M C MC MC中每个中心点对应的维度

  1. M C MC MC中选择一个样本 i i i
  2. 计算 M C MC MC中其他样本点与m的最小距离 i m i n d i s t i_{mindist} imindist(曼哈顿距离)
  3. 计算数据集中i局部近邻点集合 i n e i g h b o r i_{neighbor} ineighbor(数据集 D D D中离 i i i的曼哈顿距离小于 i m i n d i s t i_{mindist} imindist的样本点即为i的局部近邻点)
  4. 计算 i n e i g h b o r i_{neighbor} ineighbor i i i在每个特征维度的平均距离 X i j X_{ij} Xij(i表示中心点, j j j表示对应维度),计算所有维度维度均值 Y i Y_i Yi
  5. 计算Xij的标准差 σ i = ∑ j = 1 d ( X i j − Y i ) 2 d − 1 σ_i=\sqrt {\frac{\sum_{j=1}^{d} {(X_{ij}-Y_i)}^2}{d-1}} σi=d1j=1d(XijYi)2
  6. 对于每个特征维度计算 Z i j = X i j − Y i σ i Z_{ij}=\frac{X_{ij}-Y_i}{σ_i} Zij=σiXijYi,对 Z i j Z_{ij} Zij进行排序,选取 Z i j Z_{ij} Zij最小的 K ∗ L K*L KL(最小有两维特征)个特征对应的维度,作为候选中心点 m m m的子空间
  7. 重复1~6,为 M C MC MC中所有中心点找到对应子空间
  8. M C MC MC中选择 K K K个中心点,通过计算数据集中其他样本点与中心点在中心点对应的子空间的曼哈顿截断距离(Manhattan segmental distance),进行样本点的分配,使用MC中其他中心点替换掉 M b a d M_{bad} Mbad(在聚类过长中分配到的数据点个数小于 N K ∗ C \frac{N}{K}*C KNC,C是一个常数,一般设为0.1)中心点

曼哈顿截断距离:
d D ( x 1 , x 2 ) = ∑ i ∈ D ∣ X 1 , i − X 2 , i ∣ ∣ D ∣ d_D(x_1,x_2)=\frac{\sum_{i\in{D}}|X_{1,i}-X_{2,i}|}{|D|} dD(x1,x2)=DiDX1,iX2,i( D D D表示中心点对应的子空间)

优化阶段

输入:最优的中心点集M,迭代阶段最后得到的簇分配结果 { C i , C 2 . . . . C k } \lbrace C_i,C_2....C_k\rbrace {Ci,C2....Ck}
输出:聚类结果

  1. 丢弃 M M M中每个中心点都包含的维度
  2. 使用迭代阶段的方法进行子空间选择,但是与迭代阶段不同的是,使用的不是局部近邻点而是迭代阶段输出的每个中心点的聚类结果
  3. M中的中心点会得到新子空间,基于新的子空间进行数据的重新分配

参考文献

[1]Aggarwal C C , Wolf J L , Yu P S , et al. Fast Algorithms for Projected Clustering[J]. Sigmod, 1999, 28(2):61-72.

你可能感兴趣的:(聚类算法)