数据挖掘之无监督学习篇

本文主要是在看<>  Bing Liu著 的这本书的笔记

1. 基本概念

监督学习(Supervised Learning):通过发现数据attributes和类别attributes之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。

聚类(Clustering):是一种发现数据内在结构的一种技术,处于相同聚类中的数据实例彼此相似,处于不同聚类中的实例则彼此不同。【是一个将数据集中的某方面相似的数据成员进行分类组织的过程】

一个数据实例被称作对象(Object),或数据点(Data Point)


划分聚类(Partitional Clustering)

层次聚类(Hierachical Clustering)


2. k-均值聚类

(1)k-均值算法

(2)k-均值算法的硬盘版本

k-均值算法在处理大规模数据时,有时不能满足将全部数据集都加载到内在中去,k个聚类中心可以每次循环的增量来计算。

基于硬盘的方法实现

(3)优势和劣势

k-均值:简洁及效率高。但不能处理Categorical Data,此时可考虑使用k-modes算法。k-modes用替代均值作为聚类中心,需指定聚类数目k,且算法对于异常值十分敏感。


3. 聚类的表示

(1)用聚类中心来表示每个聚类

(2)利用分类模型来表示聚类


4. 层次聚类

聚类树(树状图【Dendrogram】)来完成聚类
合并(自下而上)聚类:
分裂(自上而下)聚类:

(1)单链接方法【有连锁反应】
在单链接(或单链)层次聚类中,两个聚类之间的距离是两个聚类中最近的两个数据点(两个数据分别来自两上不同的聚类)之间的距离。即单链接聚类算法在每一步合并那些最近元素具有最小的聚类,即最短最近数据点的两上聚类。

(2)全链接方法【对异常值敏感】
全链接(或全链)聚类中,两个聚类之间的距离是两个聚类中所有数据点之间聚类的最大值。
即全链接聚类算法在每一步合并那些最远元素具有最短距离的聚类,即具有最短最远数据点的两上聚类。

(3)平均链接方法

是一种介于全链接防范对于异常值的敏感性和单链接方法形成长链(这种长链不符合聚类是紧密的椭圆体一常识)的趋势之间的折衷方法。
该方法中,两个聚类之间的距离是两具聚类之中多个数据点对之间距离之和的平均值。


另外
聚类中心方法:两个聚类之间的距离是两个聚类中心之间的距离。
Ward方法:两个聚类之间的距离被定义为合并之后聚类的误差平方和相对于两个聚类的误差平方和之和的增量。


优点:相比于k-均值聚类,层次聚类能够 使用任何形式的距离或相似度函数

缺点:单链接方法会受到连锁反应的影响

           全链接方法对异常值十分敏感

           最主要不中之处是层次聚类至少平方的计算复杂度和空间需求,与k-均值算法相比,在处理大规模数据时十分              低效。


5. 距离函数

(1)数值的属性(Numeric Attributes)

闵可夫斯基距离(Minkowski Distance)

曼哈 顿距离(Manhanttan Distance)

欧几里德距离(Euclidean Distance)

加权欧几里德距离

平方欧几里德距离

切比雪夫距离(Chebychev Distance)


(2)布尔属性和符号属性(Binary and Nominal Attributes)

对称属性

非对称属性


6. 数据标准化

区间度量属性(Interval-scaled Attributes):这些属性是指数字/连续属性,它们是符合线性标题的实数。

范围标准化

z-score标准化

比例度量属性

符号(无序范畴)属性

顺序(顺序范畴)属性


7. 聚类的评估

用户体验:专家验收及评估

真实数据(Ground Truth):分类数据集被用来评估聚类算法

熵:

纯度(Purity):















你可能感兴趣的:(数据挖掘)