[PED04]Ultra-Scalable Spectral Clustering and Ensemble Clustering

Ultra-Scalable Spectral Clustering and Ensemble Clustering

来源: TKDE
作者:Dong Huang, Chang-Dong Wang,等

疑问

二部图
transfer cut

摘要

提出两个算法:

  • ultra-scalable spectral clustering (U-SPEC)
  • ultra-scalable ensemble clustering (U-SENC)

在U-SPEC中,为了构造稀疏关联子矩阵,提出了一种混合代表选择策略和K近邻代表的快速逼近方法。将稀疏子矩阵解释为二部图,利用转移割(transfer cut)对图进行有效划分,得到聚类结果。

在U-SENC中,多个U-SPEC聚类器被进一步集成到一个集成聚类框架中,以增强U-SPEC的鲁棒性,同时保持较高的效率。基于多U-SEPC的集成生成,在目标和基簇之间构造一个新的二部图,并对其进行有效划分,以达到一致的聚类结果。

Introduction

  • 问题:传统谱聚类需要 的时间复杂度和 的空间复杂度来建立关联矩阵、需要的时间复杂度和的空间复杂度来解决特征值分解问题。
  • 减轻谱聚类的巨大计算负担的方法:
    • 策略一:稀疏化关联矩阵。利用稀疏特征值求解器[2]来解决特征值分解问题。
      • 存在问题:矩阵稀疏化策略可以降低存储关联矩阵的内存成本,促进特征值分解,但仍需要计算原关联矩阵中的所有项。
    • 另一个策略:子矩阵构造
      • [3] Nyström method:随机选出p个代表构造的关联子矩阵
      • [4] landmark based spectral clustering:在数据集上执行k-means以获得p个聚类中心作为这P个代表点。
        • 存在问题:
          • 复杂度为,但是当处理极大的数据集时,为了实现更好的近似,p也会很大。
          • 聚类结果严重依赖于通过子矩阵的一次近似(one-shot approximation),聚类的鲁棒性有不稳定因素。

因此如何使谱聚类能够在相当有限的计算资源下高效、鲁棒地聚类非常大的数据集(甚至可能是非线性可分的)仍然是一个极具挑战性的问题。

本文提出两种方法:

  • U-SPEC:混合代表点选择策略来选择p个代表点。将基于k均值的选择策略的时间复杂度从降到。

    • 在此基础上,设计了一种K最近邻的快速逼近方法,有效地构造了一个具有时间和内存的稀疏子矩阵。
    • 利用稀疏子矩阵作为交叉关联矩阵,在数据集和代表点集之间建立二部图。
    • 通过二部图结构,用transfer cut[6]来求解特征值分解问题,时间复杂度为,其中k为簇的个数,K为最接近的代表数。
    • 最后,采用k-均值离散化方法构造了一组k个特征向量的聚类结果,花费了时间。
    • 一般认为,k, k

    • 此外,为了改进U-SPEC的一次性近似,提供更好的聚类鲁棒性,U-SENC算法将多个U-SPEC聚类结果集成到一个统一的集成聚类框架中,其时间和空间复杂度分别为和。
  • 贡献:

    • 1)混合代表点选择策略,在随机选择的效率和基于k均值的选择的有效性之间取得平衡。
    • 2)设计了一种K -最近邻表示的快速逼近方法,该方法对于构造对象与代表点之间的稀疏关联子矩阵,在时间和空间上都非常有效率。
    • 3)提出了一种基于有效关联子矩阵构造和二部图的大规模谱聚类算法U-SPEC。其时间复杂度和空间复杂度分别为和。
    • 4)通过集成多个U-SPEC聚类器,提出一种新的大规模集成聚类算法U-SENC,该算法在保持高可扩展性的同时,显著提高了U-SPEC的鲁棒性。它的时间和空间复杂度分别为和。

Related work

2.1 spectral clustering

  • 传统谱聚类
    • 时间复杂度:,空间复杂度:
  • 稀疏关联矩阵,通过K-近邻,然后使用sparse eign-solver求特征值分解。
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 问题:但是仍然需要计算原始关联矩阵中的所有项。
  • sub-matrix based approximation 避免计算整个的affinity matrix
    • Nystrom :
      • 随机选择p个锚点,构造的子矩阵
      • 子矩阵构造:时间复杂度 空间复杂度

你可能感兴趣的:([PED04]Ultra-Scalable Spectral Clustering and Ensemble Clustering)