本文主要是在看<
监督学习(Supervised Learning):通过发现数据attributes和类别attributes之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。
聚类(Clustering):是一种发现数据内在结构的一种技术,处于相同聚类中的数据实例彼此相似,处于不同聚类中的实例则彼此不同。【是一个将数据集中的某方面相似的数据成员进行分类组织的过程】
一个数据实例被称作对象(Object),或数据点(Data Point)
划分聚类(Partitional Clustering)
层次聚类(Hierachical Clustering)
(1)k-均值算法
(2)k-均值算法的硬盘版本
k-均值算法在处理大规模数据时,有时不能满足将全部数据集都加载到内在中去,k个聚类中心可以每次循环的增量来计算。
基于硬盘的方法实现
(3)优势和劣势
k-均值:简洁及效率高。但不能处理Categorical Data,此时可考虑使用k-modes算法。k-modes用模来替代均值作为聚类中心,需指定聚类数目k,且算法对于异常值十分敏感。
(1)用聚类中心来表示每个聚类
(2)利用分类模型来表示聚类
优点:相比于k-均值聚类,层次聚类能够 使用任何形式的距离或相似度函数
缺点:单链接方法会受到连锁反应的影响
全链接方法对异常值十分敏感
最主要不中之处是层次聚类至少平方的计算复杂度和空间需求,与k-均值算法相比,在处理大规模数据时十分 低效。
闵可夫斯基距离(Minkowski Distance)
曼哈 顿距离(Manhanttan Distance)
欧几里德距离(Euclidean Distance)
加权欧几里德距离
平方欧几里德距离
切比雪夫距离(Chebychev Distance)
对称属性
非对称属性
区间度量属性(Interval-scaled Attributes):这些属性是指数字/连续属性,它们是符合线性标题的实数。
范围标准化
z-score标准化
比例度量属性
符号(无序范畴)属性
顺序(顺序范畴)属性
用户体验:专家验收及评估
真实数据(Ground Truth):分类数据集被用来评估聚类算法
熵:
纯度(Purity):