面向超大规模数据的自适应谱聚类算法

摘要: 针对超大规模数据聚类过程中人为设定邻域参数及计算量庞大等问题,提出了一种基于近似自然近邻的自适应超大规模谱聚类算法(approximate natural nearest neighbor based self-adaptive ultra-scalable spectral clustering algorithm, AN3-SUSC)。该算法首先通过混合代表选取缩小数据规模,在此基础上利用近似自然近邻自适应地确定局部邻域参数并构建相似矩阵,最后运用二部图进行迁移分割将数据空间映射到原超大规模数据空间中并完成谱聚类分析。超大规模数据集实验结果表明,该算法对超大规模数据集聚类效果有所提升,并且降低计算规模同时具有较高的鲁棒性和较强的自适应性。

  • 关键词: 
  • 数据聚类  /  
  • 超大规模  /  
  • 近似自然近邻  /  
  • 谱聚类  /  
  • 自然邻居  /  
  • 二部图  /  
  • 自适应  /  
  • 无参数  

随着大数据(big data)、人工智能(artificial intelligence)和数据密集型科学的发展,如何充分挖掘大规模数据乃至超大规模数据中潜在的信息及价值,已经成为各界关注的重要领域。随着这些领域研究的飞速发展,研究者针对不同的数据类型和应用场景,提出了不同的聚类模型及算法。其中,在对超大规模数据聚类分析时,由于海量的样本规模和复杂的数据特征,聚类方法和计算模式的选择会对聚类效果产生巨大影响。因此,无论从算法还是应用方面,超大规模数据都对现有聚类分析方法提出了严峻的挑战。

传统的聚类算法一般通过计算对象

你可能感兴趣的:(智能科学与技术专栏,算法,聚类,机器学习)