数据挖掘对聚类分析的要求

1. 可扩展性(Scalability)
 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
2. 处理不同数据类型的能力
 数字型;二元类型,分类型/标称型,序数型,比例标度型等等
3. 发现任意形状的能力
 基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
4. 用于决定输入参数的领域知识最小化
 对于高维数据,参数很难决定,聚类的质量也很难控制
5. 处理噪声数据的能力
 对空缺值、孤立点、数据噪声不敏感
6. 对于输入数据的顺序不敏感
 同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
7. 高维度
 高维度的数据往往比较稀松,而且高度倾斜
8. 基于约束的聚类
 找到既满足约束条件,又具有良好聚类特性的数据分组
9. 可解释性和可用性
 聚类要和特定的语义解释和应用相联系

相异度矩阵:存储n个对象两两之间的近似性,也叫单模矩阵,行和列代表相同的实体

你可能感兴趣的:(算法,数据挖掘,存储,扩展,Scalability)