软子空间聚类_子空间聚类算法.ppt

子空间聚类算法.ppt

在人工数据集上的实验 在人工数据集上的实验—确定权值,随机生成初始的簇中心 (Clustering Accuracy, Rand Index) 在实际数据集上的实验 澳大利亚信用卡数据集由690个实例组成,每个实例包含6个数值型属性和9个分类型属性,其中663个可用。 心脏病数据集由200个实例组成,每个实例包含5个数值型属性和8个分类型属性。 随机重排原数据记录,并为每个实际数据集创建100个测试数据集。 信用卡数据集 心脏病数据集 结论 实验结果表明: 在恢复数据集中的簇时,w-k-means算法比k-means算法做的好。 权值可以有效地区分噪声变量和正常变量。 在聚类的过程中,选择变量的能力是很有用的。 An Entropy Weighting k-Means Algorithm for Subspace Clustering of High-Dimensional Sparse Data一种在高维稀疏数据上进行子空间聚类的熵加权的k-means算法 引言 Entropy Weighting k-Means 实验 结论 引言 高维稀疏数据的聚类需要使用子空间聚类方法 根据确定子空间的方式,子空间聚类分为硬子空间聚类和软子空间聚类 本文提出了一种在高维稀疏数据上进行软子空间聚类的新的k-means算法——EWKM 提出EWKM算法的动机是为了在高维稀疏数据上进行聚类 Entropy Weighting k-Means 目标函数: 第1项是簇内分散度的和,第2项是负的加权熵。正参数r控制着激励在更多的维上进行聚类的强度。 EWKM Algorithm 假设矩阵W和Z已确定,F被最小化,如果 ,其中 (1) 假设Z和 已确定,W被更新 (2) 假设W和 已确定,Z被更新 (3) r>0时, 与 成反比。 越小, 越大,表示相应的维越重要。 EWKM Algorithm 输入:簇数k和参数r,随机选择k个簇中心并设置所有的初始权值为 重复 更新划分矩阵W通过(2) 更新簇中心Z通过(3) 更新维的权值 通过(1) 直到目标函数得到局部最小值 在人工数据集上的实验 EWKM和PROCLUS在100个人工数据集上的聚类精度 不同算法的聚类精度 这些结果表明在对复杂的高维稀疏数据聚类时,EWKM是很好的。 结论 EWKM在聚类过程中同时最小化簇内分散度和最大化负加权熵 由于激励更多的维在识别簇时起作用,避免了在很少的稀疏维上识别簇,解决了高维数据的稀疏性问题 实验结果表明,EWKM的聚类结果的精度非常高。 EWKM还可以扩展到大的高维数据集,由于输入参数r不敏感算法容易使用 研究背景和意义 在过去的几十年里,随着科学技术的进步,数据采集及存贮能力得到了快速发展,很多学科都出现了信息爆炸的现象,研究人员需要面对越来越庞大的观测数据。因此,数据挖掘技术受到大家的广泛关注。 数据挖掘(Data Mining,DM)一般是指从数据库的大量数据中,自动搜索隐藏于其中有着特定价值和规律的信息的过程。此外,数据挖掘也是一种决策支持过程,基于人工智能、机器学习、模式识别、统计学、可视化等技术,分析各种类型的数据,做出归纳性的推理,从中挖掘出潜在模式,帮助各个领域的专家及研究人员做出正确的决策和判断 数据挖掘的主要过程包括数据准备、信息挖掘、结果表达和解释三个处理阶段 数据准备是指从相关的数据源中选取所需的数据样本,将其整合成用于数据分析的样本集; 信息挖掘是指利用各种数据挖掘算法将所得的样本集中包含的规律信息或潜在模式挖掘出来; 结果表达和解释是指尽可能以用户可理解的方式将找出的规律或模式表示出来 新的问题和挑战 首先,数据的规模越来越大的,也就是所谓的大规模数据(Large-Scale Data)的问题 其次,数据的特征不断增加,导致数据维数的增加,出现了数据密度稀疏和“维数灾难”等现象,导致出现如下的问题 1) 很难定义准确的距离度量函数。 2) 算法的空间复杂度和时间复杂度急剧上升。随着数据维数的渐增,导致各种数据挖掘算法的性能出现明显下降,难以解决实际问题中的实时性问题

你可能感兴趣的:(软子空间聚类)